0
本文作者: 天诺 | 2016-12-31 08:25 |
雷锋网按:本文作者 Carlos E. Perez ,他来自机器学习技术公司 Intuition Machine,主要研究深度学习类型、方法论、以及行业战略。 发布于 Medium 的这篇文章主要对 2017 年深度学习的十大趋势做出了预测,雷锋网编译,未经许可不得转载。
作为一名人工智能领域里的圈内人士,上次写科技预测要追溯到 6 年前了,当时我写了一篇“2011 软件开发趋势及预测”的文章,文中对行业做了十点预测,其中六个预测准确,分别是 Javascript VM、 NoSQL、大数据分析、私有云、反向桌面服务、Scala;四个略有偏差,分别是企业应用商店,语义索引、企业级OA授权、前瞻性代理。现在,我打算再来预测一下深度学习行业。
不过,这次预测和以往的不太一样,我不打算进行企业级应用预测,而是把重点放在了趋势研究和预测。毫无疑问,深度学习将会驱动越来越多的企业采用人工智能技术,对于那些“老土”的企业,未来很可能会被淘汰。好了,废话不多说,现在就来介绍一下我对 2017 年深度学习领域的预测和趋势分析吧!
如果你了解英伟达和英特尔这两家公司的硬件发展速度,就不会对摩尔定律的速度提升一倍感到意外了。在深度学习领域里,英伟达将会占据绝对统治地位,因为他们已经构建了最丰富的生态系统。没有人会傻到跳去选择其他不成熟的深度学习生态系统,预计到 2017 年中旬,英特尔 Xeon Phi 才有可能在性能上赶超英伟达,不过距离投放市场依然有距离。
另一方面,虽然英特尔 FPGA 解决方案可能会受到云技术提供商的青睐,但更多的是处于经济实惠的角度。如果想要减少成本,那么功耗是必须要改变一个要素,到明年中旬,英特尔的 Nervana 芯片预计可以达到 30 万亿次的浮点运算能力——这是我依照推测的估算,因为现在英伟达已经开发出了具备 20 万亿次浮点运算能力的处理芯片,我不相信英特尔会“憋”到 2018 年才放大招。此外,英特尔现在手头上唯一的大王牌可能是他们的 3D XPoint 技术,该技术可以改善整个硬件堆栈,但是在核心加速能力上相比于 AMD 使用的 HBM2 显存似乎略有欠缺。
亚马逊公司也宣布推出了基于现场可编程门阵列(FPGA)的云计算架构,它基于赛灵思公司 UltraScale+ 技术,并提供了 6800 个数字信号处理器和 64 GB 内存,这种配置的确非常强大,但是由于受到 I/O 束缚,可能也无法与 AMD 的 HBM 显存的性能想必你。虽然相比于英伟达、英特尔和 AMD 这样的厂商,亚马逊公司提供了更低的内存带宽解决方案,但是对于开发人员而言,可能会考虑下是否需要投入更多复杂开发流程(比如硬件描述语言 VHDL、Verlog等)
我所了解的最新消息是,AMD 已经发布全新一代Vega架构产品,但它不是消费级显卡,而是一款高性能计算加速卡“Radeon Instinct”,主要用于机器学习和深度学习,而且专门为了和英伟达旗下的硬件产品竞争。有消息称,这款产品预计会在明年年初正式上市,不过在 AMD 能够提供配套的软件解决方案之前,不要期待太多英伟达用户会“转投”到 AMD 的怀抱。
对于深度学习系统而言,卷积神经网络将会成为标配,就像面包离不开黄油一样。递归神经网络和长短记忆型递归神经网络周期性的配置,以及嵌入到内存节点都会逐渐被越来越少使用,因为他们和基于卷积神经网络技术的解决方案相比没有任何竞争力。就像现在人们编程时,没有人会使用 GOTO 语句一样,我认为,递归神经网络(RNN)和长短记忆型递归神经网络(LSTM)的“下场”也一样。
可区分的记忆网络也将会变得越来越常见。这是一个自然选择的结果(或是架构),内存将会从核心节点上提取出来,在计算机制内只是作为一个单独的组成部分驻留。我们已经看到了模块化的长短记忆型递归神经网络从内存中分离(比如增强现实递归神经网络)。
当我开始自己的深度学习之旅时,曾想过优化算法,特别是想去改进那些二阶优化算法。可如今,几乎可以断定的说,机器学习已经可以学习为你优化算法了。如果现在还有人尝试使用一个更好版本的随机梯度下降(SGD)算法的话,基本上可以不用自己写代码了。随机梯度下降算法可以通过机器学习来变得更好,而且可以解决某个特定问题。元学习会根据自身所处领域,适应性地优化学习。与此相关的是,替代算法的反向传播将开始出现在实践中。我的预测是,明年随机梯度下降算法可能要寿终正寝了。
对现实的观察永远是不完美的,当随机梯度下降算法不再适用之后,也同样会带来大量问题。未来,实际部署任何深度学习系统的时候,都需要一定形式的强化学习,这可能会成为一个必不可少的流程。除此之外,我们会看到强制学习将会越来越多地用于深度学习训练之中。举个例子,元学习将会得到强制学习的支持,事实上,我们已经看到了强制学习被用于寻找不同类型的神经网络结构。
在过去,我们拥有的是单一深度学习系统,它只有单一解析目标的功能。而在未来,我希望看到两个或是多个神经网络合作(或竞争),最终找到一个最优的解决方案。在此,我推荐一篇论文——《Game Theory reveals the future of Deep Learning》。2017 年,将会有更多人研究如何管理非平衡状态的语境。实际上,现在我们已经看到了一些相关研究,比如研究人员正在使用生成式对抗网络(GAN)尝试寻找处理非平衡状态的方法。
“预测学习”(predictive learning)是人工智能大咖 Yann LeCun 提出的一个最新热门词,基本上已经取代了之前我们常见的人工智能术语“无监督学习”。当然啦,现在我们还不清楚这个最新术语是否能够被更广泛地应用,虽然这问题很难在 2017 年就获得答案,但我可以断言“预测学习”不会取得太大进步。我现在的感觉是,这个技术过于复杂,因此存在很多概念上的断链,人们也不知道它究竟是如何工作的。
如果你读过我之前发表的文章《深度学习智能的五大能力》,可能会觉得预测学习完全是一种让人无法感知到的技术能力,它就像是宇宙中的暗物质似的,虽然我们都知道它的存在,但就是不知道该如何观察到它。
吴恩达认为这很重要,我也持同样的观点。雷锋网了解到,吴恩达曾拿百度 NLP 团队的研究成果举例,认为如果同时学习多个语言对之间的翻译,效果会比同时学习一个语言对的效果好。
实际上,今年我们就已经看到这一趋势了,比如在大规模搜索算法中就被用于函数评估组件。谷歌的“阿法狗”在走棋估值和策略评估之中就采用了深度学习技术,Gmail 的自动回复系统也采用了机器学习技术和定向搜索服务结合在一起。明年,相比于全新的端到端训练深度学习系统,我更希望能看到更多混合算法出现。端到端深度学习是一个很有前景的研究领域,但就目前应用层面来看,混合系统似乎更有效率。
深度学习只是众多需要概念架构的复杂领域中的一个,虽然它涉及到高等数学,也有大量文字叙述和模糊的概念(这些概念也难以通过正规、严谨的方法来获取),但我们必须承认,一些深度学习设计模型已经在某些复杂的行业领域里,比如软件开发得到了很好的使用。我预测,会有更多行业从业者能够接受深度学习和设计模式。
当研究人员尝试探索研究方法时,自身的背景和他们所使用的数学工具可能会带来一些“偏见”,导致最终生成的结果不够客观,但是深度学习系统和无监督学习系统可能不会遇到这些问题。就目前来说,没有证据表明传统的分析工具对揭开深度学习如何工作有什么帮助,相同的问题也出现在其他领域里,比如物理学对于动态系统如何工作也困惑了好几十年,同样的状况也出现在动态学习系统里。
不过,虽然对很多基本原理缺乏深刻理解,但这并不妨碍我们去尝试更多、更高级的应用工程。深度学习就像是生物科技或是基因工程,我们已经创造出了模拟学习的机器,但是我们还不知道它是如何工作的,然而这并不妨碍我们进行创新。
最后想说的是,我会在明年这个时候来看看自己的预测结果如何,所以祝我好运吧!
VIA medium
【招聘】雷锋网坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。
简历投递至 wudexin@leiphone.com,工作地 北京。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。