让机器学会“读心术”，情感计算如何解决实际场景需求？ | 雷锋网公开课

本文作者：程弢

2017-05-04 18:44

导语：完成情感判断需要哪些模块？以及具体实现原理是怎样的？

你做一个表情，或者说一句话，机器就可以准确地识别你的情绪。

没错，当你在渴望get“读心术”技能的时候，机器已经能完美的实现了。目前，国内的翼开科技、以色列公司Beyond Verbal以及美国的Affectiva和Emotient都在做这情感计算解决方案。其应用场景也非常广泛：飞行员情绪监控、呼叫中心情绪考核、学生情绪监测甚至是智能硬件都可以使用这类算法，而且精度可以达到90%以上。

简单来说，机器是根据人的心率、呼吸、语音甚至是面部表情等特征，再通过特定的模型算法就能解读出人的情绪状态，从技术角度看，数据挖掘、机器学习等都是情感计算的基础。

那么完成情感判断需要哪些模块？以及具体实现原理是怎样的呢？本期硬创公开课，雷锋网邀请到了翼开科技创始人魏清晨为大家分享情感计算的技术问题以及应用场景。

嘉宾介绍

让机器学会“读心术”，情感计算如何解决实际场景需求？ | 雷锋网公开课

魏清晨，翼开科技EmoKit创始人，目前全面负责EmoKit公司的战略规划、运营管理、团队建设，团队里两名核心科学家均为海归博士后。

EmoKit，即海妖情感计算引擎，包括情绪的识别、优化、表达，是人工智能的核心基础设施之一。自2015年创立半年获得600万投资，如今已经超2000万用户，今年获得近2000万元订单。Emokit先后获得美国麻省理工学院举办的“MIT-CHIEF全球创业大赛”中国区第一名，芬兰“Slush World 2014全球创业大赛”名列第一，工信部和全国科协2015全国移动互联网创业大赛“特等奖”，清华大学H+Lab“幸福科技全球挑战赛”冠军。

以下内容整理自本期公开课，雷锋网做了不改变愿意的编辑：

情感计算的模块和价值

就我们现在在做的事情来看，我们把情感计算分成3个模块：第一部分是情绪识别，通过语音、心率、表情和写字过程中压感和速率的变化来判断用户的情绪。

情绪识别

让机器学会“读心术”，情感计算如何解决实际场景需求？ | 雷锋网公开课

情绪的类型一共有24种，积极和消极各12种。在情感计算的发展过程中，算法也经历了六次升级。第一代我们通过量表测评，第二代加入了心率和呼吸，第三代针对个体增加了纵向的学习和训练，第四代我们对情绪做了一个细化（从原来的5中情绪增加到了24种），第五代加入了表情和笔记的情绪识别，第六代主要做两块工作：一个是判断了用户的情绪之后，基于单一的事件背景进一步识别用户的意图；第二个工作就是把语音、表情和视觉的行为、文本做一个多模态的拟合。

情绪优化模块

情绪识别只是第一步，未来需要解决的问题是调整用户的情绪。从上图可以看出，通过语音、心率表情和笔记这些信息判断用户的情绪之后，还可以通过推荐内容来缓解用户的情绪。

让机器学会“读心术”，情感计算如何解决实际场景需求？ | 雷锋网公开课

例如，翼开科技2011年上线的一款应用就会给用户推荐诗歌、书法、音乐等等，后来在音乐内容上做得更加深入，我们通过分析音乐的音高、节奏、旋律和音强，3分钟的歌曲会采集6000个数据点分，根据这些信息来给歌曲打情绪标签。现在已经标注过得音乐数量超过了160万首，另外，像图片、视频都是可以通过用户的情绪来做内容匹配，最终达到缓解情绪的目的。

情绪表达

让机器学会“读心术”，情感计算如何解决实际场景需求？ | 雷锋网公开课

情绪表达是利用情感合成技术，让一段语音、表情或者肢体动作模拟人的情感，让机器带有情感的表达出来，这样就可以提升人和机器的交互体验。

举个例子，如果送餐机器人只会识别菜和客人，这是基础服务；但要增加机器人的附加价值，需要送餐机器人读懂客人的情绪，客人情绪低落的时候，送餐机器人会以一种比较舒缓的情绪对话。

情感计算技术实现的路线

目前翼开科技和中科院心理所、清华大学心理系和美国卡内基梅隆大学语言技术研究所。

这实际上是两个流派：前面的两个机构代表的是基于理论研究的专家模型，卡内基梅隆大学是基于神经网络、深度学习的模型。

目前翼开科技在做的有一部分是基于深度学习的，也有一部分是基于专家模型。我们认为这两类的瓶颈都逐渐显现出来了，需要相互融合。

为什么会用深度学习来做表情的识别？

现在做深度学习的瓶颈在于大量标注过的数据，不过表情标注会相对比较容易，一张人脸只判断喜怒哀乐，一般情况下1秒就可以识别出一个人的表情，如果有几十万张表情图片，用众包的方式所需的时间和费用都不会很大。

不过有一些数据不太方便做标注，例如语音。

三分钟的语音，我们必须听完三分钟才能做情绪的标注，标注的工作量在无形中增加了上百倍，而且相对表情而言，语音的情绪表达更加隐性，所以也很难用深度学习的方式来实现语音的情绪识别。

还有一种是普通人很难进行标注的，如心率。即使你是一个专业的医生，看完一段心率图也无法确定测试对象心率变化的原因（开心、焦虑、愤怒）。

所以，现在表情是基于深度学习的，语音和心率基于专家模型。

不过刚才也讲到，这两类在发展到一定程度时候，会存在瓶颈。例表情面临的瓶颈有两个：1.普通人标注人脸表情的颗粒度一般是6-8种情绪，很难识别更细的（24种甚至是一百多种）；2.即便完成了情绪类型的标准，但你无法确认情绪的真伪。

在专家模型中，则有比较成熟的模型来判断情绪的真伪，因此，我们可以在深度学习的基础上，再叠加专家模型来突破这样的瓶颈。

心率和语音基于专家模型也存在瓶颈，现在的解决办法是建立一个个体用户强化训练的模型（一个用户测得越多，模型会越贴合被测用户的特征）；另外，我们还可以建立一个半监督学习算法来得到实时的反馈。

因此，表面上有两条技术路线，但实际上这二者是相互融合的。

情感计算的不同理解

不同的行业对于情感计算的理解是不一样的。罗莎琳德·皮卡德是麻省理工学院MediaLab的老师，她也是情感计算学科的奠基人。

在她《情感计算》这本书中的序言中有这么一句话：如果要让计算机实现真正的智能并适应我们，跟我们产生自然而然的人机交互，那么，它就需要具备情绪识别和表达能力，就需要具备情感。

谷歌云计算首席科学家李飞飞对情感计算是这么理解的：现在我们的AI都是用逻辑的方法来判断情感。逻辑代表IQ，而情感代表EQ。未来，从情绪到情感，是人工智能未来前进的方向。

我们认为可以从三个角度来理解情感计算：

第一，情感计算可以帮助AI来识别用户的情绪；
第二，情感计算可以帮助AI模拟人类的情绪，以改善人机情感交互；
第三，情感计算可以让AI产生自我约束能力（同理心）。

应用场景

目前翼开科技和环信展开了合作，环信有IM沟通工具，这里面包含了语音、表情和文本等信息，我们对其开放了绑定的SDK，可以通过语音等信息来判断用户的情绪。

另外，我们现在还和科大讯飞有合作，合作的方式主要是相互交叉授权，通过绑定版的SDK，科大讯飞来识别语音，翼开科技来判断情绪；现在还在做视觉的应用，科大讯飞识别人的身份，翼开科技来识别其情绪。

另外，以下这些都是情感计算可能落地的应用场景：

1.基于AI多模态识别和生物反馈技术的精神压力智能筛查装备
2.基于AI多模态识别和NLP技术的公安审讯实时分析预警装备
3.基于AI多模态识别和车载控制技术的司机情绪和疲劳度监测敢于系统
4.基于AI多模态识别和智能控制技术的情感联动的无操控智能家居系统
5.基于AI多模态识别和动机分析技术的金融信贷面签风险评估机器人
6.基于语音声纹和NLP技术的呼叫中心坐席情绪监控和满意度分析方案
7.基于情感大数据时序递归分析技术的幼儿性格发育倾向性预测软件
8.基于情感大数据时序递归分析技术的承认免疫系统损伤预警软件

当然，对于创业公司而言，要做出上述所有场景来推向市场，雷锋网了解到，翼开科技已经在教育、金融等领域做出了商业化的尝试。