您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
新鲜 正文
发私信给温晓桦
发送

6

比酒后短信更危险的是酒后发Twitter,更惨的是还能被算法识别

本文作者: 温晓桦 2016-03-18 15:08
导语:科学家已经训练出一套算法,能够识别出与“醉酒推文”,甚至还能知道发推时是否正在喝酒。

比酒后短信更危险的是酒后发Twitter,更惨的是还能被算法识别

世界上比酒后发短信更危险的事,就是酒后发(ren)推(jin)文(jie)了(zhi)吧。公开广播自己醉酒显然不是拓展社交应该有的动作,然而还是有很多人无法克制住吹嘘他们的酒后越轨行为。而科学家为此也是操碎了心,据外媒报道,科学家已经训练出一套算法,能够识别出与“醉酒推文”,甚至还能知道发推时是否正在喝酒。

比酒后短信更危险的是酒后发Twitter,更惨的是还能被算法识别

据悉,美国罗彻斯特大学 研究员Nabil Hossain决定在Twitter和机器学习结合起来,以在特定群体中跟踪监测醉酒用户和推文。

为了进行训练,Nabil Hossain收集2013年7月至2014年7月之间成千上万被标记的推文,然后将包含与豪饮相关关键字的推文筛选出来。

随后,他们通过亚马逊土耳其机器人(Mechanical Turk)的众包服务将1.1万条推文混合起来,每一条推文都要通过三个提问:

Q1:这条推文有任何与酒精相关的迹象吗?


Q2:如果有,推文内容是关于酒醉的发推者本身的吗?


Q3:如果是,推文有可能是在发推者喝酒所在的时间地点发出的吗?

Hossain用答案来训练三套不同的算法——“线性支持向量机”(SVM)——来回答每一个问题。

准确率(识别出醉酒推文)——机器学习的准确率和Turkers的结果——算法回答Q1的准确率为92%,Q3准确率则为82%。

比酒后短信更危险的是酒后发Twitter,更惨的是还能被算法识别

然而,该团队进行了更深入的研究,试图定位推文的发文地点,是在家里还是其他什么地方。为了锁定用户的发推地点,研究者将一些与家庭相关的关键字搜罗起来,比如沐浴、沙发、电视、睡觉以及家等,然后进行推文筛选。

以同样的训练方法,研究团队声称成功创建一套准确率达到80%的算法来识别发推地点。

根据研究结果,该团队勾勒出纽约州居民喜好的喝酒地点——家里,俱乐部等等。这是一个有趣的发现, 因为有了这些数据,研究者可以描绘出一种模式,比如纽约市的人们喜欢在家里附近喝酒,而其他某个地区的人喜欢在郊区喝酒,这样的统计可以反馈酒类饮品消费聚集地。

“未来我们可以利用这项技术来对社交媒体上的饮酒消费进行全面的研究。”

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说