1
本文作者: 章敏 | 2016-08-15 17:09 |
导读:机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
机器学习是一种数据分析方法,它可以自动分析模型的建筑。通过使用迭代学习数据的算法,机器学习可以使电脑在没有被明确编程看哪里的情况下,发现隐藏的领域。
迭代在机器学习中是非常重要的,由于它的存在,模型在遇到新的数据时,就可以独立地适应数据。它们可以从先前产生的可靠计算,重复的决定和结果中进行学习。机器学习并不是一个全新的学科-而是获得新动力的学科。
由于新型计算技术的产生,如今的机器学习与以往大不相同。尽管很多机器学习算法已经存在了很长时间,但自动将复杂的数学计算应用到大数据的能力(一个又一个,越来越快)是最新的进展。下面这些广泛宣传的机器学习应用程序的例子,你可能非常熟悉:
·大量的炒作,Google自动驾驶汽车?机器学习的本质。
·像Amazon和Netflix的在线推荐服务?机器学习在日常生活中的应用
·知道客户在Twutter上说了什么关于你的事吗?机器学习与语言规则创造结合。
·欺诈检测?在我们现今生活中,一个更明显的,重要的用途。
人们在机器学习方面兴趣的复兴,也是由于同样的因素,即数据挖掘和贝叶斯分析比以往更受欢迎。在类似数量增长和可用数据这方面,计算处理更实惠,更强大,且负担得起数据存储。
以上所有的因素都暗示着:机器学习可以更快且自动的产生模型,以分析更大,更复杂的数据,而且传输更加迅速,结果更加精准——甚至是在非常大的规模中。结果是?在现实中无人类干涉时,高价值( High-value)的预测可以产生更好的决定,和更明智的行为。
自动模型的建立是在现实中生成明智行动的一大关键。分析思想领袖Thomas H. Davenport在华尔街日报上写道,日新月异,不断增长的数据,"…你需要快速移动的建模流( fast-moving modeling streams)来保持。"而你可以通过机器学习做到这些。他还说道"人类通常一周可以创建一个或两个好的模型;而机器学习一周就可以创造出成千上万的模型."
你曾经是否好奇过,一个在线零售商是如何瞬时的为您提供可能感兴趣产品的报价吗?或贷款人如何对你的贷款请求提供近实时的答复?我们的许多日常活动都是由机器学习算法驱动的,包括:
被最广泛采纳的两大机器学习方法是监督学习( supervised learning )和无监督学习(unsupervised learning)。大多数的机器学习(大概70%)是监督学习。无监督学习大概占10%-20%。有时也会使用半监督和强化学习这两个技术。
·监督学习 算法利用标签实例进行训练,就像已知所需输出的输入。例如,一个设备可以有的数据点标记为“F”(失败)或“R”(运行)。学习算法收到了一系列有着对应正确输出的输入,且算法通过对比实际输出和正确输出进行学习,以找出错误。然后相应的进行模型修改。通过分类,回归,预测和梯度提高的方法,监督学习使用模式来预测额外的未标记数据的标签的值。监督学习被普遍应用于用历史数据预测未来可能发生的事件。例如,它可以预测,什么时候信用卡交易可能是欺诈性的,或哪个保险客户可能提出索赔。
·无监督学习使用无历史标签的相反数据。系统不会被告知“正确答案”。算法必须搞明白被呈现的是什么。其目标是探索数据并找到一些内部结构。无监督学习对事务性数据的处理效果很好。例如,它可以识别有相同属性的顾客群(可以在市场营销中被一样对待)。或者它可以找到主要属性将客户群彼此区分开。流行的技术包括自组织映射(self-organizing maps),最近邻映射( nearest-neighbor mapping),k-均值聚类(k-means clustering )和奇异值分解(singular value decomposition)。这些算法也用于段文本主题,推荐项目,和确定数据异常值。
·半监督学习的应用和监督学习相同。但它同时使用了标签和无标签数据进行训练-通常情况下是少量的标记的数据与大量的未标记的数据(因为未标记的数据并不昂贵,且只需要较少的努力就可获得)。这种类型的学习可以使用的方法,如分类,回归和预测。当一个完全标记的培训过程,其相关标签的成本太高时,就要用到半监督学习。其中早期的例子包括在网络摄像头上识别一个人的脸。
·强化学习经常被用于机器人,游戏和导航。通过强化学习,该算法通过试验和错误发现行动产生的最大回报。这种类型的学习有三个主要组成部分:代理(学习者或决策者),环境(一切的代理交互)和行动(什么是代理可以做的)。其目标是代理选择的行动,可以在一个给定的时间内最大化预期奖励。通过一个好的策略,代理将更快地达到目标。因此,强化学习的目标是学习最好的策略。
机器学习与其它统计和学习方法的不同之处,如数据挖掘,是辩论的另一个热门话题。简单来说,虽然机器学习使用了许多与数据挖掘相同的算法和技术,但其中有一个区别在于这两个学科的预测:
·数据挖掘是发现以前未知的模式和知识。
·机器学习是用来重现已知的模式和知识,自动应用到其他数据,然后自动的将这些结果应用到决策和行动。
目前电脑的能力逐渐增强也刺激着数据挖掘进化用于机器学习。例如神经网络很长一段时间内被用于数据挖掘应用。随着计算能力的增加,你可以创建许多层神经网络。在机器学习语言中,这些被称为“深度神经网络”。正是计算能力的提升确保了自动学习快速的处理很多神经网络层。
进一步说,人工神经网络(ANN)是简单的基于我们对大脑理解的一组算法。ANNs可以-在理论上-模拟数据集中任何种类的关系,但在实践中要从神经网络得到可靠的结果,是非常棘手的。人工智能的研究可以追溯到20世纪50年代——被神经网络的成功和失败打上了标签。
如今,一个被称为“深度学习”的新神经网络研究领域,在许多过去人工智能方法失败的领域,取得了巨大的成功。
深度学习结合了计算能力和特殊类型的神经网络,在大量的数据中学习复杂的模式。深度学习技术目前在识别图像中的目标和声音中的单词方面效果最好。研究人员现在正在寻找方法,将这些成功的模式识别到更复杂的任务,如自动语言翻译,医疗诊断和许多其他重要的社会以及商业问题。
算法
SAS的图形用户界面,可以帮助你建立机器学习模型,并实现一个迭代机器学习的过程。不要求你是一个高级的统计师。我们可以综合选择机器学习算法帮助你快速的从大数据中获取价值,包括许多SAS产品。SAS的机器学习算法,包括:
工具和过程
正如我们现在所知道的,它不仅仅是算法。最终,从你的大数据中获得最大价值的秘密在于,将最好的算法与手头的任务配对:
SAS不断寻找和评估新方法。他们在实施统计方法,以最恰解决你面临的问题方面有着悠久的历史。他们将统计和数据挖掘方面丰富的,复杂的遗产与最新的,最先进的结构结合,以确保您的模型尽可能快的运行(甚至是在巨大的企业环境中)。
我们明白,快速的时间值不仅意味着快速,自动化模型的性能,还包括在平台之间数据移动所需要的时间——尤其针于大数据。高性能,分布式的分析技术,受益于结合Hadoop,和所有主要数据基础的大规模并行处理。您可以快速地循环建模过程的所有步骤——在没有移动数据的情况下。
via:SAS
PS : 本文由雷锋网独家编译,未经许可拒绝转载!
雷峰网原创文章,未经授权禁止转载。详情见转载须知。