关于gcForest这篇论文我们请教了周志华教授以下几个问题

本文作者：宗仁

2017-03-06 19:09

导语：今天下午，雷锋网参加了由中国人工智能学会（CAAI）主办，南京大学周志华教授担任学术负责人的人工智能前沿讲习班－机器学习前沿。

雷锋网【AI科技评论】按：3月3日下午，AI科技评论参加了由中国人工智能学会（CAAI）主办的【人工智能前沿讲习班】，本期的主题【机器学习前沿】，由南京大学周志华教授担任学术主任。周志华教授在讲习班开场做了关于前沿讲习班的相关介绍，并在会后接受了雷锋网【AI科技评论】关于其最新gcForest论文的采访，整理编辑如下。

1. 周老师那篇arXiv的文章还是在强调“深度”，并没有完全否定深度学习？您只是提出了另一种做深的方法？使得很多参数更稳定鲁棒，也是要依靠大数据。请问这么想对不对？

主要思想是，现在大家谈到深度学习就觉得它就等于深度神经网络。我们认为解决复杂问题把模型变深可能是有必要的，但是深度学习应该不只是深度神经网络，还可以有其他形式，与神经网络相比，其他形式也许有更好的性质。

2. 昨天田渊栋老师在知乎上提到一点， Multi-Grained Scanning这部分非常像1D和2D Convolution。“另外实验还只是在小规模数据集上做的，期待CIFAR甚至是ImageNet的结果。深度学习这里也有一直在提但是一直效果不怎么好的Layer-by-Layer训练的思路，如果这个思路能在大数据集上做好，那确实是大突破了。”

您如何看待田老师说的“还只是在小规模数据集上做的，期待CIFAR甚至是ImageNet的结果”这个说法的？

我们更关心的是这件事可以怎么去做。以前大家不知道这个事情可以这样去做，我们现在把这种可能性展示出来，这是基础研究所追求的。新东西出来的时候，性能不是很重要，因为很多方面都没有优化。

性能本身并不是我们现在很关心的事情，因为改进的空间很大，可以有各种途径去提高，这都是后面的事情了。在大数据上做需要更大的资源、更多人力、物力，这是我们暂时所不具备的。工业界会更关注性能，我们也希望看看更大的资源来了之后，能做到什么样程度。

3. 周老师您在CNCC2016上，指出机器学习的近期目标是需要利用更多的计算资源及更多的数据。您新近提出的gcForest如何实现这一点？

要做大数据、复杂问题，肯定要用更强大的计算资源。现在有一些计算架构是非常适合这样的模型的。有了更大的资源之后，我们也很好奇它到底能做到什么程度。

4. gcForest 的参数少且结构灵活，发挥集成学习的特长。但gcForest如何在层数增长与问题复杂程度取得平衡？

我们认为现在这个工作是比较原创的，所以有很多方面需要探讨，它并不成熟，只是说这条路现在可以走。至于能走多远，还要看下面的探索。

5. 有知乎网友表示: “gcForest最让我吃惊的地方在于，仅仅是每层四个森林就能习得兼具accuracy和diversity的扩充特征。” 请问gcForest如何一边保证其accuracy的同时，还一边增加diversity的？

我们中间的一些设计是出于这样的考虑，例如引进完全随机树。现在文章里用四个森林，并不是说只能用四个。有更多资源以后就可以探索使用更多更大的森林会怎么样，只不过我们现在承担不起那个资源量。

6. 关于这个讲习班，周老师您可以再跟大家说两句吗？

这个讲习班是挺好的一个活动。人工智能前沿讲习班是中国人工智能学会发起的，第一期讲深度学习，第二期希望大家知道机器学习里不仅有深度学习，所以准备的这十位专家的报告，是希望覆盖机器学习的更多的方面。我想，这样的活动是很好的，来参加的人数之多出乎想象，希望能够让大家对机器学习都有更多的了解。

7. 附周志华教授在＊人工智能前沿讲习班-机器学习前沿＊开场讲话：

各位老师，各位同学，大家下午好！我是南京大学周志华，首先欢迎大家参加这个讲习班，非常希望大家能够在两天多的时间里面真正的得到一些收获。我首先表示对大家的欢迎，我们就一起鼓掌吧。

我想简单跟大家说一说这个讲习班的缘由。大家都知道人工智能学会搞过很多活动，最近人工智能特别热，中国人工智能学会在这个方面有非常好的资源，谭铁牛院士是人工智能学会的副理事长，在他的组织下，人工智能学会就开始发起这个《人工智能前沿讲习班》。第一期讲习班就是去年的12月份，主题就是“深度学习”，第二次讲习班是谭铁牛院士委托我来主持，我看第一次已经是深度学习了，全部报告都是跟深度学习有关的，所以第二次题目定为“机器学习前沿”，希望尽可能让大家接触机器学习各方面的内容。现在虽然深度学习很热，但是我们这期讲习班里深度学习虽然有涉及到的，但不是特别多，一个原因是第一期讲习班专门就是讲深度学习的。

第二次题目又定在“机器学习前沿”，我希望尽可能让大家接触机器学习各方面的内容。现在虽然深度学习很热，但是我们这期讲习班里深度学习虽然有涉及到的，但不是特别多，这主要是两个原因，我刚才说的，第一，第一期讲习班专门就是讲深度学习的。第二，我还是觉得深度学习其实只是机器学习很小的范畴，机器学习里面有更多的东西，希望大家有更全面的了解，所以这期是这样的。

特别感谢十位专家先后给大家做报告，他们都很忙，非常感谢他们接受邀请做这件事。最初的时候我的设想是，给每位专家比较多的时间。这样能把一个问题讲的更透彻，这样可能只能请五位左右的专家，后来学会希望请更多的人，希望请十位专家，我想他们的想法是说，能够在更集中的时间里面让大家看到更多的在我们国内机器学习比较活跃的学者，所以最后10位专家每个人讲2个小时的时间。因为2个小时比较短，所以中间有没有休息就由各位讲者自己来控制了，如果大家觉得听起来并不辛苦，而且讲者觉得有更多的东西希望分享给大家，中间也可以不休息，中间休息5分钟也可以，由各位讲者来控制。

另外，特别感谢有这么多的老师和同学来参加这个讲习班，除了这个讲习班讲课的时候，其他很多专家到场之后如果大家有兴趣跟他们交流，也可以在中间休息的时候和他们交流，我想我们各位专家都会非常高兴把他们的一些知道的东西分享给大家。

我就简单的讲这么多，最后，再次感谢大家的支持，感谢我们各位讲者，感谢我们人工智能学会的支持，下面把时间留给我们今天高水平的讲者。

……

PS：讲习班讲师相关内容报道请关注雷锋网【AI科技评论】接下来的现场报道。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。