0
雷锋网按:本文为「范式大学系列课程」第 2 篇文章:机器学习老司机:如何成为 ML-ready 的公司?
机器学习已经在商业领域展示了巨大潜力,那么管理者如何将其纳入日常决策和长期规划?一个公司怎样才能 ML-ready?
当你考虑在企业中应用机器学习技术时,很多问题就会出现。
我的业务是否适合机器学习模型?
我可以从机器学习模型中获得什么收益?
这是一个降低成本的问题,还是增加收入的问题?
我现在的数据积累足够吗,如果不够的话该怎么办?
我需要什么样的人才帮助我实现企业人工智能的升级?
换句话说,如果你的企业想赶上机器学习的火车,现在应该怎么做?
先给你一张信息表,然后我们会从 6 个步骤详细解析。
步骤一:定义问题
应用机器学习的公司一般有两种:
一种是以机器学习模型作为企业核心业务的公司,例如今日头条、News in Palm;
另一种是通过机器学习增强现有业务流程的公司,例如抱抱通过机器学习优化主播推荐。
对于后一种公司,清楚的定义问题会是第一个挑战。无论是个性化推荐、增加活跃度还是降本增收,都应该收敛到一个点,即我们可以通过获得正确的数据把任务变成机器学习可解决的问题。
例如,如果你想通过数据发现“高流失风险”的客户,以此降低用户的流失率,这就是机器学习可以解决的问题。你会拥有已经流失的用户(这就是机器学习的标签),流失行为背后相关的数据(例如社交媒体的活动、使用频率等),那就可以通过机器学习算法找到用户流失和用户行为之间的隐藏关系。 当然,这里面更重要的问题是,当你知道这个用户将要流失时,你准备做些什么?机器学习可以告诉你使用什么样的挽留策略能拉回他。
另一个例子是提高用户满意度。用户满意度是一个主观的指标,不同的人、场合对用户满意度的衡量标准都不一样。如果要通过机器学习来预测用户满意度,最终的结果可能就会不理想。
定义机器学习的问题,最终可以落在两个点上:
1、从业务出发,机器学习往往致力于解决标准商业逻辑和系列规则不能解决的问题。所以在考虑是否需要机器学习的时候,不妨问问自己,当你做决策的时候,有多经常是基于经验假设而非清晰的分析论据?
2、从技术出发,机器学习往往需要客观的预测指标,例如流失率、点击率、停留时长等。同时你也需要考虑数据反馈的周期,例如在信用卡反欺诈的任务中,盗刷后被用户发现并提交反馈的时间往往需要 1 周甚至 1 个月,那么系统就要考虑到负面反馈的时间。
通过机器学习强化业务流程是一个非常广泛的领域,我们可以在内容推荐、金融反欺诈、医疗健康等各行各业都看到它的身影。
步骤二:强化业务流程
当你建立了机器学习模型,下一步便是结合模型强化业务流程。一般来说会有三个层次:
1、描述
采集数据进行机器学习分析,通过图表和报告描述现状
2、预测
找到业务发展的模式,做出预测
3、行动
结合模型预测,给出不同的解决方案
麦肯锡曾经披露了一家国际银行的故事,他们通过机器学习改进违约客户相关的业务流程。通过机器学习模型,他们发现有一群平时白天使用信用卡的客户,在晚上也在大量使用信用卡。机器学习发现该行为模式和违约风险紧密相关,在进一步的问询后发现,这群人正在经历某些紧张的时刻。银行的解决方案是向这群高风险的人提供财务建议,并为他们建立新的信用额度。
步骤三:确保你的数据质量足够好
机器学习是关于数据的科学,它从数据中获得有价值的洞察。一般来说,使用机器学习辅助决策是避免偏见的好方法,但这比想象的更为棘手,因为它不能避免数据本身的偏见。例如 Google 最近陷入了一起争议,在对男人和女人的广告中,他们在男人的广告中展示了更多高级岗位。Google 的数据科学家并没有性别歧视,但算法背后的数据是有偏见的,因为它是从社交网络的互动中收集上来的。
确保数据质量足够好
基本可以说,你所拥有的数据质量,定义了算法的质量。数据可能是嘈杂的、冲突的、有偏见的和缺失的,这会对问题解决有非常不良的影响。为了优化模型开发,你需要让数据更匹配要解决的问题,所以在早期最好有熟悉业务的数据科学家支持,逐步开发和收集解决问题所需的数据。不过这里需要注意的是,尽管业务决策者寻求的是具体建议和结果预测,但数据科学家往往只能提供相关的数据特征。只有真正把数据投入到机器学习系统,才能知道最终的结果会怎么样。
确定最小预测准确度
我们需要定义最小的预测准确度。不同的业务会有不同的准确度要求,例如在涉及医疗的业务中,有些任务需要高达 95% 以上的预测准确度。而在一个预测飞机票价的算法中,预测准确度高于 75% 就足以支持客户的预定任务。
打破数据孤岛,匿名化并共享数据
数据科学家小组经常面临一个障碍,在项目的谈判阶段就需要获取数据。对于业务人员来说,了解成本是决定是否开展机器学习业务的关键因素,但在看不到实际数据的情况下,几乎不可能准确估计预测准确度水平和实施价格,这往往是谈判瘫痪的原因。企业高管不能将商业敏感数据交给技术公司,而技术公司在获得数据之前几乎无法给出明确的答案。
我们的解决方案是提供数据子集而不是整个数据库,并将其匿名化。对于拥有数据科学家的公司,在不同的部门之间共享数据也是共同的管理挑战。过度管制的数据策略,或者仅仅在各部门囤积数据,会大大减缓数据分析的进程。这就是为什么要在更高层面给数据科学家和技术公司权限的原因。
好消息:即便数据不够好,它可以修复
即便你的数据集是凌乱的而非结构化,也有办法获得好的结果。今天,数据科学家已经准备好在起步阶段应用一些方法,重组、清洗数据集,并进一步优化得到更好的建模效果。
但坏消息是,数据科学家可能需要相当长的时间完成数据清洗并进行到建模阶段。如果你没有专业知识,是否应该提前自己处理?一般来说是否定的,因为即便自己做了,最后的数据集也可能需要重新处理。
步骤四:弥合技术和商业愿景之间的差距
如果你问数据科学家最喜欢的算法,你可能会听到决策树、神经网络、逻辑回归、Kernel 方法、主成分分析等。但是这些算法如何和商业愿景结合起来?你会需要一个懂得业务和基本数据分析知识的人,他能够在业务流程中找到机器学习能够起作用的指标,领导数据科学计划,扩大机器学习应用场景的选择,调整业务和技术的愿景。
一般来说有四种方法:
1、建立机器学习团队
机器学习科学家的价格要比普通程序员高很多。当你打算建立一个机器学习的团队时,一定要给他足够的支持,因为他需要创造性的工作才能发挥作用,而这往往会和很多组织的结构发生冲突。
2、公司内专家 + 机器学习平台
你可以使用公司已有的业务专家,在 1-2 个数据科学家的帮助下,就可以通过机器学习平台解决问题。这些平台往往拥有友好的界面,公司内部的业务专家可以通过短时间的培训学习如何使用,这样你就可以把数据计划扩展到更大的专家组,解决更多的公司业务问题。利益相关,我们推荐自家的产品:第四范式先知平台。
3、机器学习解决方案公司
现在市面上已经有一些机器学习解决方案公司了,但机器学习和传统的编程不同,因为它需要克服信任的门槛。机器学习解决方案的任务面临的挑战是共享数据。根据拥有的数据类型,也许你需要以某种方法匿名化,隐藏敏感信息,例如客户联系人和他们的位置。当然,当你匿名化的时候,你也要接受解决方案公司会难以使用外部数据来丰富数据集以得到更好的建模结果。
4、和大学院校、研究机构合作
大学院校、研究机构已经有很多数据科学的研究生和博士,他们大多拥有建立机器学习模型的能力。不过和高校研究机构合作的费用一般会比较贵。
步骤五:模型过时了,需要更新
大多数的机器学习模型是在静态数据子集上开发的。一旦部署了模型,它们将会随着时间的推移而变得过时,预测也会变得不准确。根据业务环境的变化,你应该在一段时间后更换模型,或者重新培训,一般来说会有两种基本方法:
A/B测试:一个新的模型会被引入和旧的模型竞争。当新的模型超过了旧的模型,旧的模型就会被替代。这个过程将会一直重复。
在线更新:模型的参数会随着连续性的新数据流而变化。
因此,如果你希望机器学习的分析保持在稳定的水平,一定要及时更新机器学习的模型。
步骤六:是否需要定制的算法
定制的算法会有一些好处,例如它能够更匹配你的数据集和要解决的问题,训练的速度也会更快。但相对应的,它的开发和进一步迭代都价格不菲。所以如果你是一个大型企业,你可以考虑采用定制算法;如果你是中小型的企业,定制算法会带来严重的财务和管理负担。
实际上,如果是常见的预测任务,那么现成的算法模型是可行的。通过一些成熟的算法,集成好的机器学习软件,你可以很轻松的部署机器学习系统,快速解决业务流程中的问题。
无论你最终是否决定定制算法,我们都建议你先用成熟的算法试一试。
参考文章:
Developing Machine Learning Strategy for Business in 7 Steps,altexsoft.
How to Make Your Company Machine Learning Ready,hbr.
「范式大学」由第四范式发起,致力于成为“数据科学家”的黄埔军校。「范式大学系列课程」会和大家推荐戴文渊、杨强、陈雨强等机器学习领域顶尖从业人士的最新分享,以及由第四范式产品团队推荐和整理的机器学习材料。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。