mathor 大佬聊赛事：处理「微博立场检测」赛事，数据比模型重要

本文作者： AI研习社

2020-03-25 10:50

导语：AI研习社竞赛专区大佬专访。

坐镇大佬：

mathor：武汉某高校软件工程大四学生（数学家是我理想）

AI 研习社 ID：@mathor

（个人主页链接：https://www.yanxishe.com/center/myPage/5148812）

「微博立场检测」赛事链接：https://god.yanxishe.com/44

mathor 大佬聊赛事：处理「微博立场检测」赛事，数据比模型重要

AI 研习社：简单介绍一下你的个人背景，让我们更了解你呗。

mathor：我现在就读于武汉一所普通高校，大四，今年 6 月份毕业，然后参加了 20 年的研究生入学考试。我的本科是软件工程专业。

AI 研习社：之前参加过类似的比赛吗？

mathor：这已经是我第二次参赛。第一次参赛是在 19 年暑假，那是一场高校大数据挑战赛，赛题是广告点击预测。那一场赛题比较简单，尤其数据字段较少，不需要运用很复杂的特征工程，非常适合当时的我。

AI 研习社：比起其他 NLP 赛事，你认为“微博立场检测”有何不同之处？它是怎么影响你的答题思路的？

mathor：首先，“微博立场检测”赛事的字段较少，意味着我们不需要做复杂的特征工程，对新手较友好。

其次，数据量少，所以只需要普通的 cpu 就能跑。

最后，正因为数据量较少，所以许多大佬惯用的深度学习方法，如 bert、lstm 等，使用后效果可能不是很好。反而是对模型了解较少，但是非常擅长处理数据的同学，会有更好的成绩。

AI 研习社：所以说你在上周五的 PPT 里着重强调了“数据清洗”的作用，这一块方便细谈一下吗？

mathor：这次比赛的数据都是中文的，相比英文而言，中文数据的清洗过程更复杂。

首先你得分词，这里就会面临很多问题，比如不同分词工具的效果不一致，而且不存在分词 100% 正确的工具。

其次，分完词后，你还将面临各种乱七八糟的字符，如网址、验证码、表情和中文标点符号，这些实际上没什么意义，如果可以过滤掉这些，肯定会对结果产生很大的影响。

假设现在有一个非常干净的数据样本，随便带入一个机器学习的模型，得出的结果不一定比非常乱的样本带入深度学习模型的效果差。

AI 研习社：所以你采取了“pkuseg分词+fasttext”的方案。

mathor：采取 fasttext 的原因是它非常简单，随便调一下就能用，这样我可以把更多精力集中在数据处理上。（mathor 大佬参赛baseline：https://god.yanxishe.com/codeplan/detail/72）

AI 研习社：你的 PPT 里还提到一点，就是要善用分词工具的语料库，这一块又是基于什么考量呢？

mathor：像我前面说过的，不存在 100% 分词正确的分词工具，所以应该要想尽办法提高分词的准确度。

假设分词不正确，后面的过滤可能就会出现问题——比方说很多同学会过滤掉长度等于 1 的字符，但是如果一开始分词的时候就不准确，结果过滤的时候把一些重要的信息过滤掉了，对结果肯定有影响。

而各种语料库就是为了帮助提升分词的准确性。

AI 研习社：在数据处理这块，你比较推荐哪些学习材料？

mathor：我基本上很少保存资料，都是需要用到的时候才 Google ，查不到了再来问人。

以下这个表情包我个人觉得非常经典（笑）。

mathor 大佬聊赛事：处理「微博立场检测」赛事，数据比模型重要

AI 研习社：你的 AI 基础知识也是自学的吧？有没有什么较好的网站或课程推荐？

mathor：龙曲良老师的 pytorch 课程。

AI 研习社：据了解，你还拥有自己的个人博客，可以向我们介绍一下吗？

mathor：我的个人博客网址是 https://wmathor.com/ ，里头主要更新自然语言处理、算法等技术方面的内容，少量写一些个人感悟之类的。

AI 研习社：你觉得写个人博客对你最大的影响是什么？

mathor：学习完了，要是不及时做笔记，最后会忘记的（笑）。

AI 研习社：还有哪些关于“微博立场检测”的关键信息，是我的问题没问出来，你认为有必要跟大家强调的？

mathor：现在比较流行集成模型，有时间的大佬可以尝试建立多个模型，然后做个简单的投票，或者stacking之类的，或许有奇效。毕竟那么多比赛，那么多人都在用。

这是模型方面，数据处理方面我就不多说了，已经快要接触到我的方法的核心了（笑）。

AI 研习社：最后一个问题，你认为什么是“打比赛的正确姿势”？

mathor：不要随便提交代码，因为每天提交的次数有限；

同时不要过分相信验证集的分数，很可能不准，所以一定要有自己预判分数的方法，什么方法都行；

然后就是，不会的就及时上网查，原理不懂不要紧，最重要的是要能快速使用。

「微博立场检测」赛事链接：https://god.yanxishe.com/44

mathor 大佬聊赛事：处理「微博立场检测」赛事，数据比模型重要

雷锋网雷锋网雷锋网

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

0人收藏

AI研习社

编辑

聚焦数据科学，连接 AI 开发者。更多精彩内容，请访问：yanxishe.com

发私信

当月热门文章