0
雷锋网按:本文为 AI 研习社编译的技术博客,原标题 Mapping My Facebook Data — Part 1: Simple NLP,作者为 Hunter Heidenreich。
翻译 | 老赵 莫青悠 校对 | 付腾 整理 | MY
当一个 NLP(自然语言处理)在观察我的写作风格(也是如何处理我自己的 Facebook 数据!)
概述
就在不久之前,我还十分痴迷于思考我在一天之内产生的文本数据总量的问题上。如果你像我一样,做大量的书写工作,这无疑是一个机会,邮件,短信,Facebook。当然,你也可能还有其他的更有创造性的输出。可能你写日记,写音乐等等。如果你是个学生,那么你可能还有一些需要书写的作用。对于我本人来说,我真的很希望可以从我产生的这些文本数据中得到一些启示,使用 NLP 来分析这些数据真的是一件非常酷的事情。
本系列将会记录我是如何去实现这一想法的,如果你也感兴趣的话,你也可以参照本系列,自己去尝试一下。
找到你的数据
在考虑过我所有的数据之后,我决定聚焦于以下几个数据源:
我写的学校作业
我的日记
我创作的歌曲集
我的 Facebook 数据(包括我的评论,帖子和聊天内容)
在我整个工程中我使用了以上所有的数据源,但是在本系列中,我将仅仅使用我的 Facebook 数据。
对大多数数据来说,我只需要将它放入一个文本文件中,然后调用这个文本文件。但是对于 Facebook 的数据,我需要做一些额外的预处理。
如何得到你的 Facebook 数据
我们要如何能够获取到 Facebook 的数据呢?事实上要你想象的简单很多。现在(2018.8.20),你可以通过以下步骤获得你的数据:
登入 Facebook
点击右上角的倒三角符号
点击设置
点击左上第三个选项“你的 Facebook 信息(Your Facebook Information)”
下一级菜单中就有“下载你的信息(Download Your Information)”
接下来,你就可以选择你的所需要的数据,可以选择某时间段内的,也可以选择以哪种格式存储你的数据。
我选择以 JSON 格式下载了所有的数据。当我全部下载完毕后,我就得到了如下图的文件结构:
每个文件夹中的文件都是我要求的 JSON 格式的。
预处理你的 Facebook 数据
我打算下载所有的 Facebook 数据,但是我并不希望在这个课题中使用所有的 Facebook 数据。对这个课题而言,我只关心我的帖子,评论和聊天历史。为了做到这些,我为每个种类的数据写了一个预处理脚本来下载所需要的内容到文本文件。
首先,处理信息:
你在这里会看到的是我正在遍历我的 messages 文件夹中的所有子文件夹。我从那里做的是我在信息 JSON 中读到的。对于每个可用的信息,我会检查它是否是我发送的信息。如果它不是 Facebook 默认的“You are now connected on Messenger”。接着我会使用它。我给信息添加时间戳,然后将其添加到采用 year.month.day.txt 格式的文件中,这是我标记所有文本文件的格式,以便我可以记录词汇随时间的变化。
如果某些情况下,JSON 的关键字不工作,我会忽略它。
对我写的帖子我做了非常类似的事情:
我的评论:
从那里开始,我已准备好使用我的 Facebook 数据。
载入数据
首先,我们将编写一个简单的函数来获取特定类别中所有文件的列表。这将使我们能够轻松跟踪哪个是哪个,
......
想要继续阅读,请移步至我们的AI研习社社区:http://www.gair.link/page/TextTranslation/873
更多精彩内容尽在 AI 研习社。
不同领域包括计算机视觉,语音语义,区块链,自动驾驶,数据挖掘,智能控制,编程语言等每日更新。
雷锋网雷锋网(公众号:雷锋网)(公众号:雷锋网(公众号:雷锋网))
雷峰网原创文章,未经授权禁止转载。详情见转载须知。