TensorFlow 与 Apache Spark 结合：雅虎开源“TensorFlowOnSpark”

本文作者：三川

2017-02-14 07:48

导语：让 TensorFlow 直接、方便地获取 Spark 数据。

雅虎昨日宣布开源 TensorFlowOnSpark。

它使得深度学习框架 TensorFlow 能与 Apache Spark 中的数据集兼容。对于使用 Spark 来处理不同类型数据的机构和开发者来说，这无疑是一个好消息。TensorFlowOnSpark 的开源代码，已基于 Apache 2.0 协议在 GitHub 上发布。

众所周知，深度学习有海量数据需求。雷锋网了解到，许多业内公司利用 Spark 对超大规模的数据集进行管理。让深度学习框架直接、方便地获取这部分数据，将为 ML 开发提供极大助力。

雅虎在官方博客中宣布了这一消息，并解释了此前雅虎 Big ML 开发团队遇到的问题：

“现有的深度学习框架，往往需要设立单独的深度学习数据组。这强迫我们为同一个机器学习流水线创建多个程序。维护多个独立的数据组，要求我们在它们之间传输海量数据集——这导致不必要的系统复杂性和端到端的学习延迟。”

TensorFlow 与 Apache Spark 结合：雅虎开源“TensorFlowOnSpark”

为解决这一问题，雅虎此前开发了 CaffeOnSpark。它使得基于 Caffe 机器学习框架开发的程序，能与 Apache Spark 兼容。雷锋网了解到，雅虎已将基于 CaffeOnSpark 的程序，用于鉴别搜索中的不恰当搜索结果，以及自动探测电子竞技游戏直播视频中的关键看点。

雅虎去年开源了 CaffeOnSpark。如今它对 TensorFlow 做了同样的工作。两者的原理几乎相同，只是把机器学习框架换成了 TensorFlow。

雅虎表示，把 TensorFlow 程序移植到 TensorFlowOnSpark 相对方便，并经过反公司内部的反复验证。

“这通常只需要修改十行以内的 Python 代码。许多使用 TensorFlow 的雅虎开发者已轻松地把 TensorFlow 程序，移植到 TensorFlowOnSpark 执行。”

雷锋网获知，雅虎会持续为 TensorFlowOnSpark 和 CaffeOnSpark 提供支持，并欢迎开源社区对两者进行改进。对于 TensorFlowOnSpark 工作原理的详细解释，请参考雅虎博客。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

4人收藏

三川

用爱救世界

发私信

当月热门文章