1
本文作者: 思睿 | 2015-07-14 15:54 |
在最近几个月的时间里,人工智能的表现上已经取得了巨大的进步,尤其是那些被认为是电脑几乎不可能完成的事情,例如:面部和物体的识别。但也有一些领域,对机器而言仍然难以去掌握,比如幽默。幽默感是一种独特的个性,而且幽默感本身也难以界定。
部分原因是,幽默取决于许多内心因素,并且可能随着时间的变化而发生改变。有些现在看来可笑的事情,可能在晚些时候或明天就似乎并不那么好笑了。
然而,很多语言学家和心理学家认为,好的笑话都有着共同的属性,通过系统性的分析应该能够揭示出来。现在的问题是如何处理这些幽默的话语,以及机器学习是否能有所帮助。
如今,得益于密歇根大学的 Dragomir Radev 和在雅虎实验室、哥伦比亚大学,以及《纽约客》杂志的共同努力,我们得到了一个答案。这些研究人员一直在研究与漫画相关的说明文字(旁白、对话和字幕)。
《纽约客》每星期都会出版一部没有任何说明文字的漫画,并允许读者提交自己的内容。之后《纽约客》的编辑会挑选出前三名,并要求读者投票选出最佳。
此举创造了一个巨大的说明文字数据库。如今,Radev 和其合作伙伴发表了他们的研究——研究了自2005年以来,为50部《纽约客》 动画而编写的30万种说明文字。
他们的方法很简单。首先使用多种标准语言技巧,分析了所有为同一部卡通撰写的说明文字。标准包括了正面或负面的情绪程度,说明文字是否是以人类为中心(即是否参照了个人),以及他们是如何明确提及在漫画中所描绘的物体等等。
Radev 和其合作伙伴也利用了网络理论来研究这些文字。他们列出了每段文字中所提到的主题,然后通过连接那些提到了相同主题的文字来创建网络。这可以让他们使用标准的网络分析工具发现网络中最重要的节点,即核心属性。
每种方法都能产生一个说明文字的排名。Radev 和其合作伙伴会把每个排名最高的说明文字,和他们的“黄金法则”进行对比:也就是《纽约客》读者所选出来的最有趣的说明文字。
Radev 表示,研究结果提供了一些对有趣的理解。“我们发现这些方法一致认为,符合带有负面情绪、以人为本和词汇的中心性的这些说明文字更有趣。”
这是一个奇怪的研究,以至于研究本身的可靠性也难以评估。研究人员承认,在发现负面情绪与有趣的相关性方面一点都不惊喜;以人为本也是幽默中能够预期到的特性。
很容易想象,这项研究的目标之一,就是为《纽约客》每周一期的漫画,制作能从成千上万的内容中自动选择最佳说明文字的机器。如果可以,还能让机器写出更好的漫画说明文字,也许会全程自动化。
但我们以后可以让计算机讲笑话了吗?研究中并没有那么明确,可以想见短期内并不会这样。
via technologyreview
雷峰网原创文章,未经授权禁止转载。详情见转载须知。