ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会

本文作者：奕欣

2018-05-17 14:45

导语：深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用，使其被认为是迈向通用人工智能的重要途径。

如何赋予机器自主学习的能力，一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中，需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征，并以此表征为依据进行自我激励的强化学习，优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用，使其被认为是迈向通用人工智能的重要途径。

中国自动化学会将于 2018 年 5 月 31 日-6 月 1 日在中国科学院自动化研究所举办第 5 期智能自动化学科前沿讲习班，主题为「深度与宽度强化学习」，此次讲习班由中国自动化学会副理事长、澳门大学讲座教授陈俊龙与清华大学教授宋士吉共同担任学术主任。

特邀嘉宾

ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会

陈俊龙

澳门大学讲座教授，中国自动化学会副理事长

国家千人学者，IEEE Fellow、AAAS Fellow、IAPR Fellow

报告题目：从深度强化学习到宽度强化学习：结构，算法，机遇及挑战

报告摘要：本座谈讨论强化学习的结构及理论，包括马尔科夫决策过程、强化学习的数学表达式、策略的构建、估计及预测未来的回报。也会讨论如何用深度神经网络学习来稳定学习过程及特征提取、如何利用宽度学习结构跟强化学习结合。最后会讨论深度、宽度强化学习带来的机遇与挑战。

宋士吉

清华大学教授、博导

国家 CIMS 工程技术研究中心研究员

报告题目：基于强化学习的深海机器人智能搜索与运动控制方法

报告摘要：阐述强化学习在深海机器人智能搜索与运动控制领域的算法研究及其应用，从热液羽状流智能搜索与深海机器人运动控制两个方面开展工作。在热液羽状流智能搜索方面，研究基于强化学习和递归网络的羽状流追踪算法。利用传感器采集到的流场与热液信号信息，将机器人搜索热液喷口的过程建模为状态行为域连续的马尔科夫决策过程，通过强化学习算法得到机器人艏向的最优控制策略。在深海机器人运动控制方面，研究基于强化学习的轨迹跟踪与最优深度控制算法。在机器人系统模型未知的情况下，将控制问题建模成连续状态动作空间的马尔可夫决策过程，并构建评价网络与策略网络，通过确定性策略和神经网络学习得到最优控制策略。

ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会

侯忠生

北京交通大学教授、博导

北京交通大学自动控制系主任

报告题目：数据驱动的自适应学习控制

报告摘要：本报告分为以下 4 部分：第 1 部分主要介绍迭代轴上的学习控制；第 2 部分主要介绍时间轴上的学习控制，既无模型自适应控制；第 3 部分主要介绍学习控制的统一框架；第 4 部分是结论。

ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会

赵冬斌

中国科学院自动化研究所研究员、博导

中国科学院大学岗位教授

报告题目：深度强化学习算法及应用

报告摘要：将具有「决策」能力的强化学习 (RL: Reinforcement Learning) 和具有「感知」能力的深度学习 (DL: Deep Learning) 相结合，形成深度强化学习 (DRL: Deep RL) 方法，成为人工智能 (AI: Artificial Intelligence) 的主要方法之一。2013 年，谷歌 DeepMind 团队提出了一类 DRL 方法，在视频游戏上的效果接近或超过人类游戏玩家，成果发表在 2015 年的《Nature》上。2016 年，相继发表了所开发的基于 DRL 的围棋算法 AlphaGo，以 5:0 战胜了欧洲围棋冠军和超一流围棋选手李世石，使围棋 AI 水平达到了一个前所未有的高度。2017 年初，AlphaGo 的升级程序 Master，与 60 名人类顶级围棋选手比赛获得不败的战绩。2017 年 10 月，DeepMind 团队提出了 AlphaGo Zero，完全不用人类围棋棋谱而完胜最高水平的 AlphaGo，再次刷新了人们的认识。并进一步形成通用的 Alpha Zero 算法，超过最顶级的国际象棋和日本将棋 AI。DRL 在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告将介绍强化学习、深度学习和深度强化学习算法，以及在各个领域的典型应用。

ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会

陈霸东

西安交通大学教授、博导

陕西省「百人计划」特聘教授

报告题目：核自适应滤波与宽度学习

报告摘要：核自适应滤波器（Kernel Adaptive Filters）是近年来兴起的在可再生核希尔伯特空间（RKHS）中实现的一类非线性自适应滤波器，其拓扑结构为线性增长的单隐层神经元网络。其基本思想是：首先，将输入信号映射到高维核空间；然后，在核空间中推导线性滤波算法；最后，利用核技巧（Kernel Trick）得到原信号空间中非线性滤波算法。与传统非线性滤波器比较，核自适应滤波器具有以下优点：（a）如果选取严格正定的 Mercer 核函数，具有万能逼近能力；（b）性能曲面在高维核空间中具有凸性，因此理论上不具局部极值；（c）隐节点由数据驱动生成，减少了人工参与；（d）具有自正则性（Self-regularization），可有效防止过拟合。因此，核自适应滤波概念提出以后引起了国内外研究者广泛兴趣，越来越多的相关算法被提出，并被应用到诸多领域。核自适应滤波与最近兴起的宽度学习（Broad Learning）关系密切，可以认为是一类基于核方法的宽度学习算法。本报告将深入系统地阐述核自适应滤波的基本思想、主要算法、性能分析、典型应用，以及如何将其与宽度学习纳入统一框架。

ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会

刘勇

浙江大学教授、博导

浙江大学求是青年学者

报告题目：正则化深度学习及其在机器人环境感知中的应用

报告摘要：近年来，随着人工智能技术的飞速发展，深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟，主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力，从而降低其在测试样本上的泛化误差，而机器人环境感知中涉及的任务与环境具有多样化特性，且严重依赖于机器人硬件平台，因而难以针对机器人各感知任务提供大量标注样本；其次，对于解不唯一的病态问题，即使提供大量的训练数据，深度学习方法也难以在测试数据上提供理想的估计，而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题，其输入中没有包含对应到唯一输出的足够信息。针对上述问题，本报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景展开介绍。

ASSIA|中国自动化学会「深度与宽度强化学习」前沿学术研讨会