2
本文作者: 朱恒伟 | 2015-05-21 14:49 |
百度发起的全球最大分布式深度机器学习开源平台近期正式面向公众开放。据介绍,该平台隶属于“深盟”开源组织,核心开发者来自百度深度学习研究院(IDL),微软亚洲研究院、华盛顿大学、纽约大学、香港科技大学,卡耐基·梅陇大学等公司和高校。通过这一平台,开发者们可以免费获得分布式机器学习算法源码,从而降低开发和部署分布式机器学习系统及相关应用的门槛。
“此次我们推出的深度机器学习开源平台,和其他开源软件一样没有任何使用限制,个人和机构均可以自由使用”,深盟项目负责人之一、百度深度学习研究院李沐称,目前业内流行的分布式平台例如Spark都基于JAVA语言,开发难度虽然较低,但通常在性能上有所缺陷。而此次“深盟”推出的深度机器学习开源平台,其核心则完全采用C++语言,加之所开放的算法经过了多家公司的实践,因此性能稳定,达到了工业级应用水平。同时也希望能吸引更多的开发者和项目的加入。
百度方面表示,机器学习是人工智能研究领域中的重要方向,而深度学习则是近年机器学习领域的一个突破。2013年,百度组建了百度IDL(深度学习研究院),尝试将深度学习应用于语音识别和图像识别、检索,以及广告CTR预估等领域。目前有超过8项深度学习技术在其产品上线,用于GPU提升计算效率,处理海量训练数据,语音识别,OCR识别,人脸识别,图像搜索等。
据介绍,现在“深盟”分布式深度机器学习开源平台的已有组件已成功覆盖三类最常用的机器学习算法,包括被广泛用于排序的决策树模型(GBDT),用于点击预测的稀疏线性模型,以及深度学习。
目前,“深盟”的重点开发项目被命名为“虫洞”,其将成为所有深盟项目的统一入口。虫洞将自动构建深盟所有项目,为对所有组件提供一致的数据流支持,无论数据是以何种格式存在网络共享磁盘,HDFS,还是Amazon S3, 此外,它还提供统一脚本来编译和运行所有组件,使得用户即可以在方便的本地集群运行任何一个分布式组件,又可以将任务提交到任何一个包括Amazon EC2,Microsfot Azure, Google Compute Engine在内的云计算平台,并提供自动的容灾管理。
作者:新浪科技 童郜
雷峰网原创文章,未经授权禁止转载。详情见转载须知。