1
本文作者: 杨晓凡 | 编辑:郭奕欣 | 2017-10-18 16:41 | 专题:第五届CCF大数据学术会议 |
雷锋网 AI 科技评论报道:2017年10月13日至15日,第五届CCF大数据学术会议(CCF BigData 2017)在深圳市麒麟山庄举行。本届会议由中国计算机学会主办,中国计算机学会大数据专家委员会和深圳大学联合承办。雷锋网也作为协办单位,全程参与会议并进行报道。
CCF大数据学术会议的举办目的是探讨大数据相关领域面临的技术挑战,共享各类技术创新思想,展示中国大数据技术的最新研究进展,交流大数据的应用成果和研发经验。会议中以学术内容为主,也邀请了一些产业界人士共同分享真知灼见。在3天会议中,雷锋网 AI 科技评论记者感受到大数据研究在深度学习的帮助下变得越来越“深”,而大数据研究的发展也让它自身变得越来越“广”。
议程方面,本届会议设置了多个特邀演讲,邀请国际知名的教授和产业界人士分享自己在大数据方面的见解和成果,在稍后的 Panel(圆桌论坛)中他们也围绕着大数据话题展开了精彩的讨论;多个专题论坛中,二三十位嘉宾在不同的主题下介绍了自己的研究。会议也设置了论文接收和评选,共收到论文投稿273篇,录用145篇(录用率53%),并通过现场论文报告评出最佳基础论文、最佳应用论文、最佳学生论文各一篇。
本届大会邀请了四位特邀嘉宾作主题报告。两天时间内,四场精彩的报道陆续在主会议厅进行,众多台下听众也以饱满的热情聆听报道并向嘉宾提问。
基于大数据的信息物理能源系统安全节能优化
西安交通大学管晓宏教授带来了题目为“基于大数据的信息物理能源系统安全节能优化”的主题报道。管晓宏教授历任西安交通大学系统工程研究所所长、机械制造系统工程国家重点实验室主任;2000年任长江学者特聘教授,2008年至今任电子与信息工程学院院长。管晓宏教授是IEEE Fellow,现任IEEE Transactions on Smart Grid编辑,《控制理论与应用》等期刊编委,担任国务院学位办学科评议组成员,主要从事复杂能源电力等网络化系统的经济性与安全性,信息物理融合系统包括智能电网、传感器网络等,网络信息安全等领域的研究。演讲中,管晓宏教授介绍了信息物理融合系统在解决当前能源和环境危机问题中的重要作用;关于新能源应用的潜力和问题给听众带来了新的感知和思路。
Big Data and Deep Learning: Challenges and Opportunities
乔治亚州立大学计算机系主任潘毅(Yi Pan)带来了主题为“大数据和机器学习:挑战和机遇”的演讲,介绍了深度学习方法在大数据处理方面的应用,这是典型的大数据的“深”。潘毅教授历任乔治亚州立大学计算机科学系主席、生物学院副院长与主席,还是中南大学访问长江讲座教授。潘毅教授的研究领域包括并行计算和云计算,无线网络和生物信息,已发表200余篇论文,共同创作、编辑43本书籍,总引用量超过8000,还在包括7个IEEE Transaction的15种期刊任主编或编委会成员。
演讲中,潘毅教授结合自己团队的多项工作介绍了深度学习方法在大数据问题中的应用以及深度学习自身问题的解决,比如数学方法替代实验方法找到优化解决方案、新网络架构解决梯度消失问题、高维数据如何降维应用、如何解决并行计算框架的迁移性问题等。潘毅教授也提醒大家,即便深度学习现在非常火热,也别指望照抄现有方案就能达到好的效果,找到合适的架构才是应用中最重要的。
Broad Learning on Big Data: A Fusion Perspective
清华数据科学研究院院长、伊利诺大学芝加哥分校 UIC 计算机系教授俞士纶(Philip S. Yu)的演讲主题为“Broad Learning on Big Data: A Fusion Perspective”,介绍了大数据的“广”(“广度学习”)的概念和相关研究成果。俞士纶教授曾长期在IBM Watson研究中心任职,领导建立了世界著名的数据挖掘和数据库部门。俞士纶教授是ACM、IEEE Fellow,2013年获得IEEE计算机社区技术成就奖,2016年获得 ACM SIGKDD 创新奖(Innovation Award);2011至2017年间,俞士纶教授任ACM Transactions on Knowledge Discovery from Data主编。俞士纶教授的超过1000篇论文引用总数超过84000次,H-index高达136。
演讲中俞士纶教授介绍道,解决真实世界问题往往需要多个不同的数据源,并建立多数据源学习模型。依托异质信息网络HIN(Heterogeneous Information Network)和MetaPath学习,俞士纶教授介绍了广度学习综合利用多个数据集中的信息解决实际问题的成果,比如新药研发、社交内容推荐、电商平台商品推荐、推文的发布地址定位等。在听众问答中,俞士纶教授也表示MetaPath学习有较好的解释性,更可以结合人类的先验知识提高学习效率和效果。
AI系统的ABCD
现任联想集团首席技术官、高级副总裁的芮勇博士带来了题为“AI系统的ABCD”的演讲,解析了人工智能系统中重要的A、B、C、D四个重要部分。在加入联想之前,芮勇博士是微软亚洲研究院常务副院长,曾在微软工作18年。芮勇博士是IEEE、IAPR、SPIE Fellow和ACM Distinguished Scientist,曾获ACM TOMM 2017年度最佳论文奖、IEEE Computer Society 2016 技术成就奖、IEEE Signal Processing Society 2016 年度最佳论文奖等多个诸多奖项。自2014年至今,他连续三年入选Elsevier中国高被引学者计算机学科的前三名。芮勇博士还担任IEEE的多个国际学刊主编或编委,及ACM SIG Multimedia中国区首任主席。
芮勇博士在演讲中介绍了人工智能/深度学习系统的发展历程和他眼中重要的组成部分。芮勇博士的讲解深入浅出,清晰地介绍了Algrithm算法、Bussiness行业、Computer Power计算力、Data数据四个重要部分的现状和未来的挑战,尤其是在Bussiness行业方面,芮勇博士也真切地分享了自己意识到“垂直行业专家+计算机专家才能造出有用的系统”的历程。
本届CCF大数据学术会议设立了“大数据高性能计算”、“大数据智能分析”、“大数据系统与应用”、“大数据科学教育与人才培养”四个专题论坛以及“优秀青年论坛”和“产业论坛:大数据产业化与AI应用发展趋势”,广泛邀请了学者与产业界人士分享自己的研究成果与学术和应用观点,也广泛涵盖了大数据应用中丰富的方方面面。
专题论坛一:大数据高性能计算
分论坛主席为中山大学钱德沛教授。论坛中,西安交通大学教授、院士徐宗本介绍了大数据集群算法 VClustering,清华大学计算机系副主任、“”专家朱文武报告了“视频大数据高效表达、深度分析与综合利用”,清华大学高性能计算技术研究所所长杨广文介绍了基于神威太湖之光的大数据分析,北京航空航天大学计算机学院院长吕卫锋讲解了“城市超脑 - 城市计算智能系统的挑战”,中山大学教授、“”专家罗锦兴报告了以脉波影像数据为基础的整体精准医学。
专题论坛二:大数据智能分析
分论坛主席为北京邮电大学杜军平教授。论坛中,复旦大学计算机学院院长、“”专家王晓阳报告了“智能化大数据搜索”,兰州大学信息科学与工程学院院长胡斌、“”专家胡斌介绍了基于计算心理生理学的情感分析在精神健康方面的应用,山东大学计算机学院与软件学院院长、“长江学者”、“杰出青年”陈宝权介绍了“城市场景三维感知与智能增强”,中科院自动化所副总工程师张文生报告了“结构+统计”大数据机器学习算法与应用,北京交通大学计算机学院计算机科学系主任于剑剖析了“深度学习的能和不能”,湖南大学大数据研究中心主任秦拯介绍了基于领域知识工程的大数据分析技术与行业实践。
专题论坛三:大数据系统与应用
分论坛主席为中国科学院深圳先进技术研究院须成忠教授。论坛中,香港理工大学电子计算机学系主任曹建农报告了跨领域的大数据处理和分析方法,武汉大学计算机学院院长胡瑞敏对三元空间大数据理论与网络空间安全应用进行了探讨,澳大利亚迪肯大学博士余水报告了“大数据网络:挑战和机遇”,平安科技大数据首席总监兼智能引擎部总经理、“”专家肖京介绍了智能认知改造金融服务,中国科学院深圳先进技术研究院首席科学家、云计算研究中心主任、“”专家须成忠教授报告了“案例分析:数据驱动的智慧城市智能”
专题论坛四:大数据科学教育与人才培养
分论坛主席为华东师大周傲英教授。论坛中,复旦大学大数据学院副院长高卫国介绍了复旦大学大数据学院人才培养的历程和经验,中国人民大学计算机学院副院长李翠平报告了“数据科学与大数据技术”人才培养模式初探,西北工业大学计算机学院副院长尚学群解析了自己对数据科学与大数据专业建设的思考,厦门大学数据库实验室博士林子雨探讨了高校大数据课程建设中的关键问题,华东师范大学数据科学与工程学院教授黄定江介绍了自己在互联网+和人工智能视野下的数据科学与工程专业建设中的探索和思考。
优青论坛
优青论坛中,天津大学计算机学院副院长胡清华、华南理工大学计算机学院副院长余志文、东北大学计算机学院教授袁野、西安交通大学数学与统计学院教授孙剑、NVIDIA中国区教育科研行业总监袁永清等分别介绍了自己的研究课题及成果。
企业论坛
雷锋网 AI 科技评论对企业论坛有一篇单独专题报道,详细请看这里。
根据大会程序委员会介绍,本次会议共收到论文投稿273篇,经过通讯评审和会审,共录用论文145篇(录用率为53%),并推荐到《计算机学报》、《计算机研究与发展》、《电子学报》、《模式识别与人工智能》等十余种校内外刊物发表。与往年相比,今年投稿的论文在质量和学术水平上都有显著提高,论文所涉内容的深度和广度亦有进步。
会议期间,录用的论文以分组报告或者墙报展示的方式进行交流讨论,其中分组报道论文96篇,墙报展示论文49篇。会议中还设立了最佳论文奖,由现场报告评分选出。来自深圳大学、南京大学、东北大学的各一篇论文分获最佳基础类论文、最佳应用类论文和最佳学生论文奖。
最佳基础类论文:《基于达尔文演化的高维数据隐藏特征分组聚类方法》
论文作者为深圳大学王文婷,马力恒,刘懿鑫,潘灏,其中王文婷为青年教师。论文主要介绍了一种基于演化算法的聚类算法,用于解决超高维数据的特征组学习和聚类;论文方法的创新点在于,找到的特征组内的元素有重新分组的机会,提高了聚类效果。实验表明论文方法可以提升人类基因组(超高维数据)聚类、寻找疾病相关性的准确率。
最佳应用类论文:《面向小目标的多尺度Faster-RCNN检测算法》
论文作者为南京大学黄继鹏,史颖欢,高阳。论文主要介绍了一种基于Faster-RCNN的目标检测算法,并将其应用于小目标的快速检测中,系统运行速度可以达到4K输入下的25帧/秒,识别精度达到超过60mAP。论文方法的创新点在于,利用采样变换,综合利用高分辨率和低分辨率图像,以半监督学习的方式显著提高了识别精度。
最佳学生论文:《bHash:一种I/O高效的外部哈希分组模式》
论文作者为东北大学孔晓旺,张岩峰,于戈,其中孔晓旺为在读硕士研究生。论文中针对目前各种基于哈希表或排序的方法不同的内存效率和时间效率,提出了一种综合哈希和排序特点的bHash算法。算法分为两个阶段,先根据统计数据累积分组大小,分区文件直接写入硬盘,然后第二阶段中把哈希表转化为分组偏移量键值对。这一方法在大规模数据、有限内存下有较高的时间效率,而且适用于倾斜数据。论文中还采用了缓存等方法减小I/O需求,进一步改善了时间性能。
会议的最后一个环节是Panel(圆桌论坛)。主会场中,三位主题演讲嘉宾潘毅教授、俞士纶教授、芮勇博士,以及香港理工大学电子计算机系教授、实验室主任曹建农,在深圳大学大数据研究院所副所长崔来中主持下以“大数据创新与应用”为主题展开了讨论,针对大数据基础理论创新、大数据和人工智能的关系、国内外大数据研究发展状况给出了自己的观点。
几位嘉宾都认可“云计算平台需要继续发展”、“大数据成就了现阶段的人工智能”、“国内外大数据理论研究水平差距不大但国内的研究更以应用为主导”的观点,不过也有意见不同的时候,比如潘毅教授和俞士纶教授认为国外风投环境比国内环境好,几个博士生的团队很容易凭几篇论文拿到风投开始创业;芮勇博士则认为国内的创业估值高到有点“傻”,但风格上更贴近用户。在几个问题中,芮勇博士也提出了“小数据的应用也很重要”、“深度学习是纯data-drive,今后还需要更多symbolic人工智能的研究”等较为新颖的观点;曹建农教授提出的“数据自身的研究缺乏科学理论”的观点也引发了观众的共鸣。
在 Panel 的提问环节,来自观众席的一个“科技是否真的保证了人类幸福、人类安全”的问题引出了嘉宾们对科学技术的哲学思考。潘毅教授认为,科学研究一直在找技术进步和可能的危险之间的平衡点,在科学发展过程中人类需要依赖一些GDP之类的纸面指标,而这些指标也真切影响着人类的幸福。俞士纶教授认为,任何发明都有正面和负面,都可以被误用,但不能因为有误用的风险就不让科技进步。芮勇教授赞同潘毅教授和俞士纶教授的观点,并进一步解释道,科技进步是人类的好奇心引发的,而好奇心是人类的本质属性;人类可以制订规则减少新技术可能的危害,但是人类的本性是难以改变的。曹建农教授表示,人的感受和他内心对事情的诠释方法有关,每个人都有自己的标准和生活目的;而最终,技术的进步是很难阻挡的,即便抱有担心也无法停止新技术的到来。
这最后一个问题有些“哲学”,但它确实触及了科学和人类关系的本质。在大数据会议的最后听到著名学者们在这个问题的想法和他们的行动应对,揭示了先进的技术开创新的可能,也体现了高水平研究者身上科技思维和人文思维的相辅相成。雷锋网 AI 科技评论相信未来的科技发展总是会围绕着提升人类生活的幸福和富足步步攀升。第五届CCF大数据学术会议圆满落下帷幕,期待明年第六届CCF大数据学术会议上听到更多关于科学和人类关系的思考,看到更“深”、更“广”的大数据研究成果。
更多学术会议报道欢迎继续关注雷锋网 AI 科技评论。
相关文章:
CCF 大数据学术会议的企业论坛上,八位嘉宾们都在关注怎样的产业应用问题?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。