您正在使用IE低版浏览器，为了您的雷峰网账号安全和更好的产品体验，强烈建议使用更快更安全的浏览器

此为临时链接，仅用于文章预览，将在时失效

人工智能正文

发私信给杨晓凡

发送

0

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

本文作者：杨晓凡

2017-09-20 18:46

导语：文本分类有哪些主要方法，应用中有哪些思路？

雷锋网 AI 科技评论按：自然语言处理（NLP）一直是人工智能领域的重要话题，而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习（Deep Learning）的热潮来临，有许多新方法来到了NLP领域，给相关任务带来了更多优秀成果，也给大家带来了更多应用和想象的空间。

近期，雷锋网 AI 研习社就邀请到了达观数据的张健为大家分享了一些NLP方面的知识和案例。

分享主题：达观数据 NLP 技术的应用实践和案例分析

分享人：张健，达观数据联合创始人，文本挖掘组总负责人，包括文本审核系统的架构设计、开发和日常维护升级，文本挖掘功能开发。复旦大学计算机软件与理论硕士，曾在盛大创新院负责相关推荐模块，在盛大文学数据中心负责任务调度平台系统和集群维护管理，数据平台维护管理和开发智能审核系统。对大数据技术、机器学习算法有较深入的理解和实践经验。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

此次分享中，张健按照NLP概述、文本分类的传统方法、深度学习在文本分类中的应用和案例介绍四个板块，结合在达观数据的系统设计和应用经验，分享了他的见解。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

达观数据是一家专注于文本挖掘和搜索推荐技术服务的企业，总部位于上海浦东软件园。达观的NLP挖掘系统的设计思路是，用户直接接触的到的最终功能，他们称为是篇章级应用，可以处理整段的文本，提供的功能包括文本自动分类、情感分析、自动文本标签、违禁词汇和垃圾评论识别等。在下方支持编章级应用的是短串级应用，更底层一些，在词组、短句的层面上提供结构分析和变形、词位置分析、近义词替换等功能。最底层、最小粒度的是词汇级应用，比如中文分词、词粒度分析、调性标柱等等。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

文本挖掘的任务可以分成四类：

同步的序列到序列，特点是输入文本的每一个位置都有对应的输出
异步序列到序列，输入和输出可以不完全对应
序列到类别，给文本加上标签
类别到序列，根据给定的标签生成文本

然后张健依次介绍了序列到序列任务中几种问题的常见解决方案。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

在序列标注／命名实体识别问题中，每个词都会有各自的标签；选用的词汇标签体系越复杂，标注精度就越高，但同时训练也就越慢。所以需要根据人力、时间等成本选择合适的标签体系。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

英文不需要分词，但是多了词形还原和词根提取的问题。在这里，张健推荐WordNet来帮助解决相关问题。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

接下来进入了今天讲解的重点，就是文本分类。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

传统机器学习方法做文本分类会需要文档建模、文本语意、特征抽取、特征向量赋权等步骤。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

具体到分类器的设计，常用的四种思路为朴素贝叶斯分类器、支持向量机分类器、KNN方法和决策树方法。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

然后还可以聚合多个分类器来提高准确率。最简单的想法是用多个模型分别预测然后投票，实际的聚合方法是另外训练一个分类器，模仿多个分类器组合后的结果。这里需要原来的几个分类器效果不能太接近，而且不能有太差的。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

在有了深度学习以后，文本分类又有了很多效果出色的新方法。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

首先可以用CNN做文本分类，它不需要人工特征，而对词序包含的信息提取能力更强。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

在基础的CNN之上，可以在其中不同的层使用不同的思路，衍生出来RNN+CNN、DCNN（动态池化，更适合不同长度的文本）、Very Deep Network等等。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

常用的方法还有RNN和LSTM，适合变长序列的建模。序列过长的时候，一般的RNN因为容量的问题会丢失信息、误差增大，它的变种LSTM中通过三个门之间的信息保留和更新，更好地解决了长距离依赖的问题。双向LSTM同时有正向和反向的部分，可以同时捕获上文和下文的信息，表现也比单向的更好。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

然后就是近期风靡的注意力模型，是编码解码器的升级版本。Encoder-Decoder模型的问题是，输入中的每个词都对输出有同样程度的影响。但实际语言中往往不是这样的，注意力模型就可以对输入中的不同词赋予不同的权重，让对语意影响程度更高的词语对输出有更高的影响力，从而在输出中更好地体现了输入的关键信息。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

张健最后结合达观数据的业务介绍了一些NLP的应用案例。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

比如结合定制行业专业语料、垂直语意模型、离线统计、语意拓展等等方法进行新闻分类，结合无监督预训练+持续Fune Tuning的训练方法，不仅可以分为新闻、财经、科技、体育、娱乐、汽车等大类，财经中股票、基金、外汇，体育中NBA、英超、中超等细分类别也可以分得出来。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

第二个案例是垃圾信息识别。现在许多广告信息都会用特殊字符（火星文）尝试骗过识别系统，就需要对变形词做识别还原，方法包括去除特殊符号、同音和繁简变换、偏旁拆分等。还可以先用语言模型识别文字，发现语意不通顺、胡言乱语的，就很有可能是故意规避关键字检查的垃圾信息。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

第三个案例是情感分析。简单的方法可以根据直接表达感情的关键词做判断，还可以做特征工程然后用机器学习的方法识别语句模式，以及用深度学习的方法得到更好的信息提取效果。

学术青年分享会：达观数据张健分享文本分类方法和应用案例 | 分享总结

最后张健还分享了一个他们的文本挖掘系统的使用链接，感兴趣的读者可以尝试一下他们系统不同层次的丰富功能。

本次分享的视频录像可以点此观看

更多精彩分享请继续关注雷锋网！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

6人收藏

分享：

相关文章

杨晓凡

读论文为生

日常笑点滴，学术死脑筋

发私信

当月热门文章

最新文章

热门搜索

马斯克数据 Oculus Rift Microsoft 惠普 Apps 聊天机器人苹果发布会虚拟货币 3D 小米手环

为了您的账户安全，请验证邮箱

您的邮箱还未验证,完成可获20积分哟！

重发邮箱修改邮箱

请验证您的邮箱

立即验证

完善账号信息

您的账号已经绑定，现在您可以设置密码以方便用邮箱登录

立即设置 以后再说