1
本文作者: 李尊 | 2016-07-27 18:58 |
ICVSS全称International Computer Vision Summer School,是一年一度的计算机视觉领域的重要会议,今年会议选择于7.17-23号在意大利西西里岛举行。
在刚刚过去的7.23号,ICVSS2016—第十届国际计算机视觉暑期研讨会在美丽的意大利西西里岛落幕。
今年的ICVSS主题是“计算机视觉:接下来会发生什么?”
计算机视觉是让机器能够看见的科技,ICVSS2016—第十届国际计算机视觉暑期研讨会目的在于对当下计算机视觉领域提供一个客观清晰的评价,并且对目前领域内相关研究做出深度分析。在这次大会中主要关注:计算机视觉领域接下来还会发生什么?
在大会期间有学术界和工业界的顶级学者和行业领袖进行演讲,他们通过自己的成功经验从理论和实践层面来详解计算机视觉领域中的问题。主题演讲者包括:
• Michael Black, 马克斯-普朗克智能系统研究所
• Dhruv Batra, 弗吉尼亚理工大学
• William T. Freeman, 麻省理工学院CSAIL实验室
• Andrej Karpathy|斯坦福大学
• Koray Kavukcuoglu| 谷歌Deepmind
• Yann LeCun| Facebook FAIR实验室&纽约大学
• Sergey Levine伯克利,华盛顿大学,谷歌
• Devi Parikh, 弗吉尼亚理工大学
• Pietro Perona, 加州理工学院
• Ashutosh Saxena, 斯坦福大学,康奈尔大学
• Shahram Izadi, 微软
• Bernt Schiele, 马克斯-普朗克信息研究所
• Jamie Shotton, 微软研究院,剑桥大学
• Stefano Soatto, UCLA
• Antonio Torralba, 麻省理工学院CSAIL实验室
在本文中,我们将会详细介绍几位学术界和工业界大牛在ICVSS2016大会中的演讲,把摘要及内容总结给大家。
首先给大家分享的是来自Facebook AI Research & NYU(Facebook FAIR实验室与纽约大学)的Yann LeCun(燕乐存),他在大会中分享的内容是:深度无监督学习:使用常识探索AI发展之路(Deep Unsupervised Learning:the Road to AI with Common Sense)
深度学习是计算机视觉和语音识别中的变革过程中的关键所在。目前很多工作都在将深度学习应用到自然语言理解、会话系统应用以及翻译中,比如基础视觉任—VQA和视频注释。但是绝大多数的深度学习都提前使用人类注释的数据进行训练。Yann认为对超大型深度学习系统进行训练,让他们能够获得类似于常识的经验,这要求深度学习系统在没有被人类标记的“自然”数据中进行学习。机器能够像幼年时期的动物或者人类一样学习自然知识和真实世界的参数吗?
对于AI研究领域来说这是下一个时间所面临的挑战,在演讲中Yann会提到一些有希望解决这些课题的研究技术与方法。
来自Google DeepMind 的Koray Kavukcuoglu,他在大会中分享的内容是:针对agents的深度学习(Deep Learning for Agents)
近几年来,深度学习已经提高或者近乎取代许多监督基准方面标准视觉、语音和自然语言处理途径的相关问题。同时,在深度强化学习模型方面的进步也让使用端对端方法训练agents来解决复杂任务成为可能。然而,最具挑战性的问题时如何让agent在完全没有直接指导或者回报信号的情况下完全理解自身的环境。
在这次演讲中Koray Kavukcuoglu首先介绍了几种深度强化学习的方法,这几种方法在agent基准上都能实现目前最好的结果。然后Koray Kavukcuoglu具体讲了在通用图像和视频模型中近期的研究成果,最后Koray Kavukcuoglu与观众一起探讨了在深度学习和通用agents模型中未来发展的方向。
来自CSAIL麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory)William T. Freeman在大会中上分享了:看见微小的运动,使用声音去学习视觉(Seeing tiny motions, and using sound to learn about vision)
世界上充斥着微小的运动,这些都可以用来可视化以帮助预测机械故障、研究物理或生物过程,或者诊断疾病。在演讲中William T. Freeman介绍了一个他们开发的运动显微镜,并用它的输出例子来进行展示。
运动产生声音,声音可以带领研究学者推断产生声音的对象的材料属性。William T. Freeman还介绍了有关“视觉表示声音”的工作,这些声音视觉信号可以用来帮助训练视觉系统来推断物体的材料属性。
大会评选出了两篇最佳论文,分别是:
Convolutional Two-Stream Network Fusion for Video Action Recognition(用于视频动作识别的卷积双流网络融合)
Robust Visual SLAM Across Large Time Lags(跨越大型时间延迟的鲁棒性视觉SLAM算法)
另外针对学术项目大会特别组织了一次研讨会,让学生有机会与计算机视觉领域里世界顶级的实验室以及业界龙头企业进行互动、交流、学习,其中参与的业界讨论的实验室以及企业有:
• Facebook Ai Research| Facebook AI实验室,美国
• Google DeepMind, |谷歌Deepmind,美国
• Microsoft Research Cambridge|微软剑桥研究院,英国
• OSRAM Corporate Technology|欧司朗科技集团,德国
• Qualcomm Research|高通研究院,奥地利
• Rakuten|乐天株式会社,日本
• Toyota Research Europe|丰田欧洲研究院,比利时
• Toshiba Research Europe|东芝欧洲研究院,英国
• Xerox Research Centre Europe|施乐欧洲研究中心,法国
有关于ICVSS2016会议最佳论文以及其他主题演讲消息,请继续关注后续报道。
PS : 本文由雷锋网独家编译,未经许可拒绝转载!
via ICVSS2016 Twitter
雷峰网原创文章,未经授权禁止转载。详情见转载须知。