从1数到13 ，想当数据科学家的你这些错误可别犯

本文作者： AI研习社-译站

2018-08-09 10:00

导语：数据科学家是什么？好吃吗

雷锋网按：本文为AI研习社编译的技术博客，原标题 13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them，作者为 PRANAV DAR 。

翻译 | 姚秀清李照寒郭蕴哲校对 | 石金红整理 | MY

前言

当你看这篇文章的时候，我们知道你已经决定把数据科学当作你的工作。当下越来越多的企业需要数据支持其决策，世界也变得越来越紧密，几乎每个企业都需要大量的数据科学实践。因此，对数据科学家的需求是巨大的。当然，人才短缺也是业内所公认的。

然而，成为一名数据科学家并不容易。它需要解决问题的能力、结构化思维、编码以及各种技术技能，才能真正成功。如果你只有非技术和非数学的背景，那么你很有可能通过书籍和视频来学习。然而这类资源大多并没有教你工业界对数据科学家要求的能力。

这也是渴望成功的数据科学家需要努力弥补自我学习与实际工作之间差距的主要原因之一。

从1数到13 ，想当数据科学家的你这些错误可别犯

在本文中，我将讨论业余数据科学家所犯的常见错误（我自己也犯了其中某些错误），并提供了一些比较实用的资源，旨在帮助您避免数据科学中的这些陷阱。

学习理论概念而不应用它们
不学习先决知识而直接学习机器学习技术
完全依靠认证和学位
误以为你在机器学习竞赛中看到的是真实的工作现状
注重模型的精度胜过其适用性和可解释性
在简历中使用过多的数据科学术语
优先考虑该使用的工具和各种库而不是业务本身要解决的问题
没有花费足够的时间去探索和可视化数据
缺乏结构化的方法来解决问题
试图一次学习多个工具
不能坚持学习
远离讨论和竞赛
不去提升沟通技巧

1. 学习理论概念而不应用它们

从1数到13 ，想当数据科学家的你这些错误可别犯

资料来源：认知课 - YouTube

正如我在 AV 实践问题那篇文章中提到的那样：掌握机器学习技术背后的理论是很好的，但如果你不应用它们，它们只是理论。当我开始学习数据科学时，我也犯了同样的错误：我学习了书籍和在线课程，但并不总是用它们来解决问题。

因此当我有机会应用我所学的知识去解决面临的挑战或问题时，我却忘了一大半！我们需要学习的东西有很多，比如算法、推导、研究论文等。你很有可能在中途失去学习动力并放弃。我已经看到这种情况发生在很多试图进入这个领域的人身上。

如何避免这个问题？

你必须在理论和实践之间保持一个平衡。一旦你学习了一个概念，请立即访问 Google，找到可以使用它的数据集或问题。你会发现这样做之后可以更好地理解理论知识。您还可以使用 AV 的 DataHack 平台，完成上面的练习题和参与比赛。

必须承认的是你无法通过一次学习掌握所有的东西，在练习时查漏补缺，这样会使你学到更多东西！

2. 不学习先决知识而直接学习机器学习技术

从1数到13 ，想当数据科学家的你这些错误可别犯

资料来源：伦敦帝国理工学院 - YouTube

大多数立志要成为数据科学家的人都受到机器人视频或有趣的预测模型的鼓舞，当然也有些人是在高薪诱惑下入行的。遗憾的是（不好意思让你们失望了！），在你到达那里之前，你还有一条漫长的路要走。

在应用一项技术解决问题之前你应该了解其背后的工作原理，这样做将有助于你了解算法如何工作，知道如何去微调它，并且还将帮助你在现有技术的基础上搭建新的技术。数学在里面发挥着重要作用，因此了解某些概念总是有帮助的。在日常的企业数据科学家角色中，您可能不需要了解高级微积分，但有一个总体的了解肯定是有帮助的。

如果您有好奇心或想要进入研究领域，那么在深入了解机器学习的核心技术之前，您需要了解的四个关键组件是：

线性代数
微积分
统计学
概率论

如何避免这个问题？

正如房子是一砖一瓦建造的，数据科学家的看家本领也是由掌握一个一个知识点开始的。有大量的资源可以帮助您学习这些知识点。为了帮助您入门，下面我为每个知识点主题列出了一个资源：

您还可以查看 Analytics Vidhya 的「数据科学入门」课程，其中包括了有关统计和概率的综合模块。

3. 完全依靠认证和学位

从1数到13 ，想当数据科学家的你这些错误可别犯

资料来源：CIO.com

自从数据科学变得非常受欢迎以来，各地的认证和学位几乎都出现了，给招聘经理和招聘人员增加了不少烦恼。浏览我的 LinkedIn 资料，至少 5 张认证图片被我自豪地展示在那里。虽然得到这些认证并非易事，但完全依赖它们也是非常危险的。

数以万计渴望成功的数据科学家报名并完成了种类繁多的在线课程。如果说完成这些课程曾经能为你的数据科学简历添加一些独特的价值，那么现在已经不是这种情况了。招聘经理对这些证书并不那么看重了，他们更加重视你的知识结构，以及你如何在现实生活中应用它们。

与客户打交道、处理项目截止日期、了解数据科学项目的生命周期如何工作、如何设计模型以适应现有业务框架，这些只是你作为一个成功的数据科学家所要做好的工作的一部分，而这些仅仅只有课程认证或学位是不够的。

如何避免这个问题？

不要误解我的意思：认证是很有价值的，但只有当你将这些知识应用到课堂之外并将其展示出来时才有价值。不管你对真实数据做何种分析，确保你写下它。创建自己的博客、在 LinkedIn 上发布，并征求社区的反馈意见。这表明你愿意学习并且有很多想法，愿意接受别人提出的建议并将其用于你的项目中。

你应该对实习持开放态度（无论你的经验水平如何）。你将学习到很多关于数据科学团队如何工作的经验，这会使你在参加下一次面试时受益。

如果你正在寻找下一个项目，那么你来对地方了。我们有一个很棒的按难度分级的项目清单。现在就开始吧。

4. 误以为你在机器学习竞赛中看到的是真实的工作现状

从1数到13 ，想当数据科学家的你这些错误可别犯

这是近来数据科学家们最大误解之一。竞赛和黑客马拉松提供了相当干净、一尘不染的数据集（好吧，说得是有点过了，懂我的意思就好）。你下载它们然后着手解决问题。即使这些数据集有一些缺失数值的数据列也不会多么麻烦，找到一种插补技术然后填空就好。

不幸的是真实世界里的项目并不这样。真实世界中有一条涉及与一群人一起工作的端到端的流程。你几乎总得和混乱、未清洗的数据打交道。俗话说得好，“花费你 70-80% 的时间，收集、清洗数据”是一点也不为过的。你会（很可能）不喜欢这个令人筋疲力尽的过程，但它最终会变成你日常工作的一部分。

此外还有一点我们将在下文中详谈，那就是简单的模型要优先于任何复杂的、堆砌的集成模型。准确性不总是最终目标，这是你会在工作中学到的最矛盾的事。

如何避免这个问题？

令人尴尬的是避开这个误区的重要因素是经验，你获得越多经验（这种情况下实习会大有助益），你越能区分这两者。这就是社交媒体的方便之处：多跟数据科学家们聊聊，问问他们的经验。

另外，我建议看看这个 Quora 问题，来自世界各地的科学家就这个问题在上边表达了他们的看法。竞赛排行榜确实适合衡量你的学习进度，但面试官想知道的是你怎样去优化一个算法来产生影响，而不是为优化而优化。学习一个数据科学项目如何运转，一个团队里有哪些不同的角色（从数据工程师到数据架构师），基于你的理解构建你的回答。

阅读这篇领英帖子，其中解释了分析模型的标准方法。

5. 注重模型的精度胜过其适用性和可解释性

从1数到13 ，想当数据科学家的你这些错误可别犯