0
导读:(雷锋网)如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢?
图1
人类擅长在所有的事物中寻找对应的模式。 真模式,假模式,命名的模式。 我们是那种能在薯片上找到猫王的脸的生物。 如果你倾向于将模式与洞察力等同起来,请记住有三种数据模式:
1、存在于你的数据集中和数据之外的模式/事实
2、仅存在于数据集中的模式/事实
3、只存在于你想象中的模式/事实
图2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd
数据模式可以存在于(1)所有感兴趣的人群中,(2)仅仅在样本中,或者(3)只存在于你的头脑中
哪一种对你来说更有用,取决于你的目标是什么
你追求的是纯粹的灵感,那么它们都非常适用。即使是来自术语apophenia中的奇特的定义apopheny(人类有错误地感知不相关事物之间的联系和意义的倾向)也可以激发你(文章里面的称呼统一一下,要么都你,要么都你吧)的创意。 创造力是没有特定的答案的,所以你需要做的就是查看你的数据,并享受它带来的乐趣。 创造力是一种额外的收获,尽量不要在这个过程中浪费太多时间。
政府想要向你征税的时候,它一点也不关心你这一年除了财务数据之外的模式。 基于事实的决定是,通过你的欠债情况,分析去年的数据得出应该采取的方法。它会基于事实对你所欠下的债务做出决定,而做出决定的方法就是分析去年的数据。换句话说,查看数据并使用公式进行评估。你只需要对手头的数据进行描述性统计分析。前面两种模式都可以很好地做到这一点。
腾讯视频:统计思维-1-什么是统计数据
YouTube:https://youtu.be/OJt-k9h9pmk
有时,理想和现实是有差距的,当你不具备做决定所需要的全部信息时,你就需要在不确定性中寻找方向,选择一个合理的行动方案。
这就是统计学,它是一门会改变你在不确定情况下思维方式的科学。它的目的是能产生一个像icarus一样的飞跃,突破你的知识局限,而不是遇到短板就突然结束。
这就是数据科学的核心挑战:如何应对数据不足的情况。
在你离开一个断崖式的障碍之前,你当然会希望你在现实中可以运用的模式是可以突破它的。换句话说,模式必须一般化才能真正有用。
图3:Source: <span style="font-family:"&">xkcd
在三种类型中,如果你是在不确定的情况下做出决策,那么只有第一种(可推广的)模式是安全的。 不幸的是,你还会在数据中发现其他类型的模式,这也是数据科学的核心问题: 如何应对数据不足的情况。
如果你认为从数据中提取无用的模式纯粹是人类才会做出的事情,那就大错特错了!如果你不小心,机器也会自动为你做出同样的蠢事。
ML / AI的全部要点是对出现的新情况进行正确的归纳。
机器学习是一种能做出,许多类似决策的方法,这些决策涉及在算法中查找数据中的模式,并使用这些模式对全新数据做出正确决策。 在ML / AI术语中,泛化是指这个模型能够很好地处理以前从未见过的数据。 基于模式的方法如果只能在原来的数据上起作用,那又有什么用处呢?ML / AI的全部要点是对出现的新情况也能通用。
图4
这就是为什么我们列表中的第一种模式是唯一适合机器学习的模式。它是信号的一部分,其余部分只是干扰信息(这些干扰只存在于旧数据中,分散了你对于可泛化模型的注意力)。
信号:存在于你的数据集中以及它之外的模式。
噪声:仅存在于数据集中的模式。
事实上,在机器学习中,“过拟合”指的是获得一个处理原始干扰而不是新数据的解决方案。我们在机器学习中所做的几乎所有工作都是为了避免过度拟合。
假设你(或你的机器)从数据中提取的模式超出了你的想象,那么它是哪种模式呢?它是存在于感兴趣的对象(“信号”)中的真实现象,还是当前数据集的特性(“噪声”)。如何判断在访问数据集时发现了哪种模式?
如果你已经查看了所有可用的数据,那么你就被困住了,无法判断你的模式是否存在于其他地方。统计性假设检验的分析手段取决于出现的意外情况,而对数据中已经存在的模式可能会出现的意外进行模拟,效果会差异性很大。
图5
这有点像在云中看到兔子的形状,然后使用相同的云测试所有的云是否都像兔子。我希望你们需要一些新的云来验证你们的理论。
任何用来激发理论或问题的数据点都不能用来测试同一理论
在查看数据之前要先提出问题
数学从来都不是基本常识的反制
我们在这里得到了一个结论。 如果你在寻求灵感的时候用光了你的数据集,你就不能再用它来严格测试它所带来的理论(无论你多么充分的使用数学,因为数学绝不是基本常识的反制)。
这意味着你必须进行选择! 如果你只有一个数据集,你就不得不问自己:“我是否有认真思索,设置了所有的统计性假设检验,然后仔细采取严格的方法,或者只是挖掘数据获取了灵感。
这里的问题是,你只有一个数据集,而你需要不止一个数据集。如果你有很多数据,那么我会为你模拟一个黑客攻击,扰乱你的思路。
图6
要想在数据科学中胜出,只需通过拆分数据将一个数据集转换为(至少)两个数据集。然后用一个获取灵感,另一个用于严格的测试。如果最初启发你的模式也存在于那些没有机会影响你的观点的数据中,那么这将是一个更有希望的选择,这种模式就像是存在于猫砂里的东西,你要从中挖出你的数据。
如果相同的现象存在于两个数据集中,也许这是一个普遍的现象,它也存在于这些数据集中的任何地方。
如果未经审视的生活不值得过下去,那么以下四个词就是生活的准则:把该死的数据拆开。
如果每个人都能分享自己的数据,世界会变得更好。我们会有更优的答案(从统计学)到更好的问题(从分析学)。人们不把数据分割作为一种强制性习惯的唯一原因是,在上个世纪,它是一种奢侈的事情,很少有人能负担得起;数据集非常小,如果你试图拆分它们,那么可能就什么都没有了。(在这里可以了解更多关于数据科学史的信息。)
图7
将你的数据拆分为一个探索性数据集,每个人都可以挖掘灵感和测试数据集,以后专家可以使用这些数据集严格确认在探索阶段发现的任何“见解”。
如果你没有拆分数据的习惯,你可能会被困在20世纪。
如果你有大量的数据,但是你看到的是未分割的数据集,那么你的瓶颈可能就是会受到老式视角的影响。每个人都习惯了陈旧的思维方式,却忘记了与时俱进。
说到底,这里的想法很简单。使用一个数据集来形成一个理论,发号施令,然后开始执行,证明你知道你在一个全新的数据集中谈论的是什么。
为了更健康的数据文化,数据分割是最简单且快速解决方案。
这就是你如何在统计数据中保持安全,以及你如何避免因过度拟合ML / AI而被活活吃掉的方法。 事实上,机器学习的历史就是数据分裂的历史。
为了利用数据科学中最佳创意,雷锋网认为你所要做的就是确保将一些测试数据放在窥探者无法触及的地方,然后对其余的数据进行充分的分析。
要赢得数据科学,只需通过拆分数据将一个数据集转换为(至少)两个。
如果你认为他们为你提供了超出他们所探索信息的可操作洞察力,请使用你的秘密测试数据来检查他们的结论。 就这么简单!
雷锋网小结:数据科学需要强大的思维逻辑,与时俱进的洞察力,还要能胆大心细摒弃一系列的干扰信息。即使是机器也并不能脱离人脑自行工作,还需要在理论与精准模式的加持下不断探索,这可真不是一项简单的工作。
原文链接:https://medium.com/@kozyrkov/the-most-powerful-idea-in-data-science-78b9cd451e72
雷峰网原创文章,未经授权禁止转载。详情见转载须知。