CSIG-3DV学生论坛第一期“立体匹配专题”顺利召开
2021年4月27日晚8点,CSIG-3DV学生论坛第一期“立体匹配专题”在Skype线上召开,同时在虎牙直播平台进行同步直播。本次论坛共有两位讲者和一位主持老师,简介如下:
学生讲者一:Zhelun Shen(沈哲伦,北京大学)本科毕业于西北工业大学,硕士就读于北京大学,他目前感兴趣的研究方向包括深度学习和计算机视觉,目前在CVPR、TJVC上发表多篇文章。他曾作为主要完成人参加ECCV2020鲁棒视觉挑战赛(Robust Vision Challenge 2020),获得双目立体匹配赛道冠军。
学生讲者二:Chengtang Yao(姚承唐,北京理工大学)北京理工大学媒体计算与智能系统实验室硕士生,指导教师为贾云得教授和武玉伟助理教授。研究方向为三维视觉和人脸安全,目前已在CVPR和IEEE T-IFS上发表论文多篇。
主持人:Yulan Guo (郭裕兰,国防科技大学)国防科技大学副教授,主要研究方向为点云特征学习与三维场景理解。目前已在IEEE T-PAMI、IJCV和CVPR等国际期刊和会议上发表学术论文100余篇,论文被引用4000余次。目前担任中国图象图形学会三维视觉专委会秘书长,CVPR2021和ICCV2021等国际会议领域主席(AC),曾担任IEEE T-PAMI编辑。曾获得ACM SIGAI Rising Star Award(2019年),中国人工智能学会吴文俊人工智能优秀青年奖(2019年)及中国人工智能学会优秀博士学会论文(2016年)。
图1.沈哲伦作报告
沈哲伦的报告题目为CFNet:Cascade and Fused Cost Volume for Robust Stereo Matching。在报告中,沈哲伦从动机、方法、实验结果三个方面分享。主要提出通过缓解现有算法不太能处理的不同数据集之间域上的差异以及不同数据集之间不平衡的视差分布这两大挑战来提高网络的泛化性,具体来说,针对不同数据集图片之间域上的差异,提出融合多尺度小分辨的cost volume来提高模型的感受野,然后对于不同数据集之间不平衡的视差分布,提出对cost volume进行级联,通过不确定性估计,自适应的调整下一级的视差搜索范围从而让网络更聚焦于更有价值的视差搜索空间。
图2.姚承唐作报告
姚承唐的报告题目为A Decomposition Model for Stereo Matching。在报告中,姚承唐介绍了一种用于立体匹配的分解模型,通过把原始立体匹配分解为低分辨率上的稠密匹配和高分辨率上的稀疏匹配从而降低原始匹配成本。根据立体匹配复杂度,证明复杂度随输入分辨率的增加呈立方增长,但所提模型的复杂度仅呈对数增长。
在两位同学完成汇报后,主持人组织报告人与在线的学生进行Q&A。
图3.两位汇报人进行Q&A
问答部分:
问题1:立体匹配并不是一个新的方向,如何在立体匹配这个领域找到前沿研究方向或者新问题?
回答:从立体匹配这一任务来看,有两种寻找方式,一种是广泛阅读论文,了解立体匹配的发展史,从发展史中我们可以看到与立体匹配有关的各种问题,以及相应解决方法的演变,借鉴别人的思路,第二种是多实现,在实现方法的过程中,我们需要不断做实验、修改模型,在这个过程中,我们会发现一些问题,同时实现完成,在现实世界中使用的时候,我们会发现各种不work的情况,此时就可以针对这些情况,分析是什么问题导致的,进而研究。从其他任务来看,可以参考借鉴其他视觉、ML等研究任务中的问题或者解决思路,看立体匹配中是否有类似的情况。此外,大家可以去关注这几年发表在CVPR、ECCV和ICCV的新论文并回顾那些经典的文章,传统方法是否可以在深度学习的时代有全新的应用方法。
问题2:在三维视觉领域,如何将传统方法与深度学习方法相结合以取得更好的效果?
回答:参考传统方法的研究思路、建模分析的思想,用深度学习这一工具实现出来,从而结合了传统方法中理论的可靠性和深度学习强大的特征学习、数据拟合能力。类似GANet或者deeppruner。
问题3:如何提升无纹理区域立体匹配的鲁棒性?
回答:从硬件层面来说,可以考虑额外硬件设施,比如打各种包含纹理的光等。从软件层面来说,可以考虑多尺度分析,在低分辨率上,结合周围具有可分辨性的邻域信息,改善上下文信息,从而完成匹配。此外可以结合一些其他任务,比如说单目深度估计,语义分割,通过多任务的方式来处理双目立体匹配比较难处理的一些区域。考虑到实际应用,我们可以考虑加一个额外的子网络来评估预测得到的深度图的置信度,通过滤除掉那些无纹理区域中不太可靠的点,我们可以方便后续任务,比如说三维重建,slam选取更可靠的点。
问题4:立体匹配的groudtruth很难获得,如何从小样本的角度考虑立体匹配问题?
回答:立体匹配目前没有小样本学习的方法,目前一些小样本的方法效果并不是很好。可以考虑无监督或半监督学习。另外,从数据或模型角度,可以考虑生成虚拟数据,扩大模型的泛化能力。此外,也可以更改模型让得到的结果更加平滑。
问题5:与传统的domain adaptation 或者domain generalization相比,解决立体匹配数据的domain shift有什么专有的挑战性问题?
回答:1.不同数据集视差分布不平衡的问题 2.不同数据集采集时使用的baseline以及focal length不一致的问题。在立体匹配任务中,除了要考虑合成数据集到真实数据集的domain,要能在实际情况下都能使用,还得考虑室内室外场景的domain、室内大小场景的domain等等,主要就是不同场景下的domain,而不同场景中的domain可以进一步细分,比如光照、视角、材质等环境影响因素下的domain等。
问题6:如何从一个科研小白成为一个科研达人?
回答;首先大家可以去关注这几年发表在CVPR、ECCV和ICCV的新论文,特别是那些已经开源的经典文章,大家可以从这些文章入手,通过复现经典的工作来逐渐了解自己所要研究的领域,然后我们可以尝试着去做一些增量型的工作,比如说提高一下现有算法的准确率,或者说提高一下现有算法的精度,做出一些小成功,在这个领域有了一些积累以后,大家可以尝试着去做一些开创性的工作。总结的来说就是,广泛阅读论文,多实践,从而积累理论、加深理解,消化形成自己的理解体系后,可以根据理论分析或实现现象得到新的问题或者理解思路,在此基础上,打磨,再结合前沿学术研究或应用市场,形成新的理论框架或者发现新的应用场景,就得到更好的创新。
最后,郭裕兰老师对此次活动进行了深入总结:本次论坛具有前沿性、代表性两个特点,在立体匹配的理论、技术方面都带来了具有代表性的研究成果,相信在大家的共同努力下三维视觉会迎来新的突破,应用场景也会得到更大的开拓。本期“CSIG-3DV学生论坛”为三维视觉的研究人员加强交流,促进合作,提升对前沿技术的理解提供了良好契机。
本次会议录播将在虎牙直播官方账号发布,回放链接为:https://v.huya.com/u/1472579339。
——————————————————————————————————————————————————————————————
活动参与方式:
1. 活动组织形式:每两周一期,周二晚8:00线上进行,每期1位老师主持人+2位学生讲者;
2. 软件平台:会议软件为Skype,同步直播软件为虎牙直播,网址:https://www.huya.com/24461705;
3. 欢迎相关领域老师和优秀硕博生推荐/自荐参与“3DV学生论坛”,秘书处联系方式(郭裕兰:yulan.guo@nudt.edu.cn,武玉伟:wuyuwei@bit.edu.cn,杨佳琪: jqyang@nwpu.edu.cn)
(撰稿:张世坤,审核:郭裕兰,武玉伟,杨佳琪)