0
雷锋网 AI 研习社按:本文为雷锋网字幕组编译的技术博客,原标题 Python for Data Science: 8 Concepts You May Have Forgotten,作者为 Conor Dewey。
翻译 | 庞有振、黄中杰 整理 | 孔令双
如果你在编程的时候发现自己一遍又一遍的搜索同一个问题、概念或者语法,那么你并不孤单。
我自己也经常这样。
虽然在 StackOverflow 和其他资源网站搜索很正常,但是它对你的好处比较小,并且会增加你理解这门语言的困难。
我们生活在看起来有无限信息和无穷免费资源的时代,似乎搜索一下就把问题解决了。然而,这可能既是祝福也是诅咒。如果不能有效的管理和整合,过度依赖这些资源会阻挡我们长期进步。
来源:xkcd
我发现自己有几次从论坛上复制代码并修改,而不是花时间去学习和巩固我下次可能遇见的知识点。
这个方法比较懒。虽然这个方法可能是短期阻力比较小的一个,但是这最终会伤害你的成长、效率和回想语法的能力。
最近我在 Udemy 通过了一个名为「数据科学和机器学习中的 Python」的在线课程。通过这一系列的课程,我整理了一些我在 Python 数据分析中所忽视的语法和概念。
为了巩固我对这些理念的理解和便于你们在 StackOverFlow 进行搜索,这里我整理出了我在使用 Python,Numpy,Pandas 中的一些知识点。
对于每一个知识点我都给出了简短的描述和例子。另外,我也给出了视频和其他的资料的链接,这些有助于加深这些知识点的理解。
在写循环的时候,每次定义一堆的列表是相当无聊的。幸运的是,Python 内置了一种名为列表推导式的方法,这种方法仅仅使用一行代码就可以解决这个问题。列表推导式刚开始对你来说可能有些困难,但是你一旦熟悉,你就会经常使用。
来源: Trey Hunner
下面的第一个例子是求每一个元素平方的的普通写法,第二个是列表推导式的写法。
x = [1,2,3,4]
out = []
for item in x:
out.append(item**2)
print(out)[1, 4, 9, 16]
# vs.
x = [1,2,3,4]
out = [item**2 for item in x]
print(out)[1, 4, 9, 16]
有些函数只需要用几次就需要定义一个新函数,你是否对此厌烦呢?lambda 函数可以解决这个问题!Lambda 函数在 Python 中通常被用来构建应用次数比较少的的匿名函数。也就是让你构建一个了不带名字的函数。
Lambda 函数的基本语法如下:
lambda arguments: expression
普通函数能做的,Lambda 函数也都能做,只要它们能够写成一行。下面这个简单的例子和视频能够更好的让你理解 Lambda 函数的强大之处。
double = lambda x: x * 2
print(double(5))
10
当你掌握了 Lambda 函数,然后将 Lambda 函数和 map,filter 函数一起使用,你会发现威力巨大。 具体的说,map 函数通过对列表中的每一个元素进行操作,将列表转换成一个新的列表。在下面的这个例子中,map 函数将每一个元素乘以 2,变成一个新的元素。注意这里的 list 函数只是简单的将输出结果转化为 list 类型。
# Map
seq = [1, 2, 3, 4, 5]
result = list(map(lambda var: var*2, seq))
print(result)[2, 4, 6, 8, 10]
Filter 函数类似于 map 函数,但是 filter 函数通过比较每一个元素是否为真从原始列表中抽取子集。
# Filter
seq = [1, 2, 3, 4, 5]
result = list(filter(lambda x: x > 2, seq))
print(result)[3, 4, 5]
Python: Lambda, Map, Filter, Reduce Functions :
https://youtu.be/cKlnR-CB3tk
快速创建简单的 NumPy 数组,使用 arange 和 linspace 函数最合适不过了。 它们都有各自特定的功能,但在这里使用(不是使用范围)在于其产生的 NumPy 数组,对于数据科学通常更容易操作。
Arange 函数,根据 start 和 stop 指定的范围以及 step 设定的步长,生成指定间隔的均匀间隔序列。除了开始值 start 和结束值 stop,还可以根据需要定义步长 step 或数据类型。这里需要注意,结束值是一个「截止」值,所以不会包含在生成的数组中。
# np.arange(start, stop, step)
np.arange(3, 7, 2)
array([3, 5])
Linspace 函数非常相似,但略有不同。它根据 start 和 stop 指定的范围以及 num 设定的个数,生成指定个数的均匀间隔序列。因此,给定一个开始值 start 和结束值 stop,以及个数值 num,linspace 函数将在 NumPy 数组中均分这个范围。这在数据可视化和绘图时轴的声明很有用。
# np.linspace(start, stop, num)
np.linspace(2.0, 3.0, num=5)
array([ 2.0, 2.25, 2.5, 2.75, 3.0])
使用 Pandas 删除列或对 NumPy 矩阵元素求和时,你可能会遇到这个问题。如果没有,那么之后也一定会遇到。下面给出删除列的示例:
df.drop('Column A', axis=1)
df.drop('Row A', axis=0)
在我真正知道为什么需要声明轴是什么之前,我编写了无数次这行代码。从上面的代码中,你可以推断出,如果对列进行操作需要将 axis 设置为 1,对行操作则将其设置为 0。但这是为什么呢?我喜欢探求原因,或者至少我记得这个:
df.shape
(# of Rows, # of Columns)
查看 Pandas 中 dataframe 的 shape 属性会返回一个元组,其中第一个值表示行数,第二个值表示列数。想想 Python 中的索引方法——行为 0 列为 1,这与我们声明轴的方法非常相似。很有意思,对吧?
How do I use the "axis" parameter in pandas?:
https://youtu.be/PtO3t6ynH-8
如果你熟悉 SQL,那么这些函数方法可能会更容易理解。其实它们本质上都只是以一定方式合并 dataframe 的方法。哪种情况下用哪个最好很难说,所以让我们再回顾一下。
Concat 函数可以在下方或旁边合并一个或多个 dataframe(取决于如何定义轴)。
Merge 函数在作为主键的指定公共列上合并多个 dataframe。
Join 函数合并两个 dataframe 的方法与 merge 函数类似。但是,它根据索引合并 dataframe,而不是某些指定列。
可以通过查看优秀的 Pandas 文档,了解特定用法和更具体的示例,以及你可能遇到的一些特殊用法。
Youtube:
https://youtu.be/XMjSGGej9y8
你可以把 apply 函数想做地图功能,但它只对 Pandas 的 DataFrame 或者更具体地说是 Series 进行操作。如果你不熟悉 Series,其实它在很多方面都与 NumPy 数组非常相似。
Apply 函数会对你指定的列或行中每个元素作用一个函数。你可以想象到这是多么有用,尤其式当你对整个 DataFrame 列进行归一化和元素值操作,而不必进行循环。
Python Pandas Youtube 教学视频:
最后但同样重要的是数据透视表。如果你熟悉 Microsoft Excel,那你可能已经在某些方面听说过数据透视表。Pandas 内置的 pivot_table 函数可以将电子表格样式的数据透视表创建为 DataFrame。需要注意的是,数据透视表中的级别存储在创建的 DataFrame 层次索引和列中。
我希望你在使用 Python 进行数据科学操作时,可以通过经常遇到的一些重要但有些棘手的方法、函数和概念对上述方法有效地慢慢记忆。就我个人来说,写出这些并试图用简单的术语解释它们也更加加深了我对这些知识的理解。
雷锋网字幕组编译。
原文链接:
号外号外~
一个专注于
AI技术发展和AI工程师成长的求知求职社区
诞生啦!
欢迎大家访问以下链接或者扫码体验
https://club.leiphone.com/page/home
雷峰网原创文章,未经授权禁止转载。详情见转载须知。