0
昨天是各位老司机、福利姬的末日,因为美国著名博客网站Tumblr在当天突然出台了新的政策决定——Tumblr将全面禁止出现任何成人内容,新规定将于12月17日正式施行。
这不是天经地义的事情吗,有何可大惊小怪的?
和多数人心中对“和谐社区”的定义不同,在新规定发布之前,Tumblr这个以年轻人为中心的社交网络平台以收容大量的色情内容(主要为文章、静态图和Gif图)而闻名全球。
社交网站Tumblr截图
Tumblr 创始人 David Carp 曾表示,色情相关的内容,占据了该网站流量的2-4个百分点。2012年,一份当月刊发的意大利研究报告显示,这一数字正迅速增长,甚至有近半网友遇到过避无可避的成人内容,而对此评论Tumblr未做出任何的回应。
时至今日,在雅虎旗下的这家社交网站上,尽管只有超出0.1% 的账户在出产色情内容,但却有22%,甚至更高的用户关注、点赞、或转发了上述账号的内容。有研究指出,正是这种“分享”行为,导致另外28.5%的 Tumblr用户无意间接触到了色情暴露内容。
俗话说得好,常在河边走,哪有不湿鞋?
雷锋网获悉,就在两周前,苹果公司将Tumblr软件从其应用程序商店中删除,原因是其检测和删除儿童色情的自动化系统出现故障。而从类型上来看,尽管在Tumblr上也能看到类似天文地理历史科学的各种“小清新”内容,但相比前者来说只能是冰山一角罢了。
至此,Tumblr启动了AI鉴黄计划,并在声明中郑重表态要将成人内容“赶尽杀绝”。
Tumblr CEO Jeff D’Onofrio在声明中表示,Tumblr的AI鉴黄计划并不是指要禁止裸体政治抗议或大卫雕像。这个操作要求AI具备极强的成人内容识别能力,同时也依靠人类帮助训练和控制系统。
简单来说,Tumblr希望打造一个可以识别裸体女性但同时又不会将裸体女性塑像误认为是成人内容的人工智能系统。尽管这对人来说是一件再简单不过的事,但对于AI来说其难度则是达到了“鸡蛋里挑骨头”的级别。
换做你是AI,看到这种场景有木有想骂街的冲动?
说到这里,想必会有人问了:“Why?”
实际上,AI识别图像的过程分为信息的获取、预处理、特征抽取;选择、分类器设计;分类决策三大块。在第一部分中,AI将图片中的特征点提取出来,并通过数据匹配来获取到它的属性,并最终生成判定。
也就是说,除了成人内容相关的敏感词汇、特征点的抓取,要想让AI将真人与雕塑区分开就需要在此基础上再对特征点的材质等特征做出匹配。难点在于,初期AI只能按照指定的几个“标签”分析图片类型,对于图片中的物体是肉体还是大理石、是塑料还是泡沫......这种问题是无法做出精确分析的。
简单的智能系统更无法像人一样立刻在随机的图片中找到哪些标签应该衡量,哪些不值得衡量。将这一问题对应在Tumblr的鉴黄计划中,其解决问题的唯一办法就是尽可能全面地抓取图片、文字中的特征点,而这对于系统而言必将承受巨大负荷。
特征点识别
如何避免这样的恶循环怪圈?对此,Tumblr CEO Jeff D’Onofrio表示,公司不断加大投资推动此政策的实施,包括符合行业标准的机器监控、不断壮大的人类仲裁团队以及便于举报滥用行为的用户工具。通过让更多的用户以及相关人员参与其中,Tumblr希望通过人工智能的学习能力来逐步培养AI鉴黄系统获得精准的筛选能力。
而除了人工合作之外,针对以上问题雷锋网也曾在名为《世界最大黄网要用 AI “鉴黄”,还号称要让鉴黄师下岗》的文章中向图普科技运营总监姜泽荣提出了疑问,他的回答是:“如果是一个1.5小时的视频,一秒一张截图,在上述数量视频的基础上足以训练出效果尚可的模型。”
由此来看,尽管Tumblr的识别对象是图片和文字,但对于如此量级的社交网站(也不止这一家在做类似的事)来说训练出“可用”的AI鉴黄系统自然是不在话下。
既然不在话下,为啥还任重道远?
从目前效果来看,尽管声明中Tumblr明确提出会着重训练AI在性取向言论和色情内容方面的筛选能力,以便避免前者被认为是不当内容屏蔽掉。但有反馈称被错误禁止的内容甚至包括加菲猫的图片,蝙蝠侠吃法兰克福的图片和电视厨师戈登·拉姆齐胸前拿着一块米糕并称之为“隆胸”的图片。
AI:Emm~这只喵长得灰常少儿不宜,屏蔽!
纽约自由摄影师劳拉·汤普森表示,我不得不手动申诉团队解锁这些图片,虽然我贴在网站上的标签确实是“色情”(如“食品色情”)但显然它们和色情无关。
从成本方面看,Tumblr的社交网站属性让内容量变得源源不断,这就需要AI鉴黄系统具备强大的GPU运算能力,高速端对端图像处理速度以及较高的带宽标准。在雷锋网名为《AI 会让鉴黄师失业吗?》的文章中曾提到:“算力方面,原本千万级别的样本在GPU为单机单卡的情况下训练时间要接近一个月,而仅10000张图片里面往往有一张属于色情图片,为了识别出这张图片,AI扫描的成本即为10000次”。由此可见,AI鉴黄确是一项费钱费力的大工程。
从风险系数看,AI鉴黄计划执行的同时也伴随着各种其他风险。首先,针对用户属性的AI鉴黄师必须要尽量全面的获取到用户在平台上的各类数据,而谁都无法担保这些数据最终会流向何处(尽管大家都说“我们是绝对安全的”)。
3月16日,Facebook被曝在2014年有超过5000万名用户资料遭“剑桥分析”公司非法用来发送政治广告,此次事件曝光后Facebook 仅在一天之内市值蒸发60亿美元(约合人民币380亿元)。尽管直到目前Facebook仍因此事深陷动荡局势之中,但其CEO马克·扎克伯格却在多次听证会议上否定了公司存在有意侵犯用户隐私并参与到相关交易中的行为。
在真相浮出水面之前我们不知道真相究竟是什么,但这足以证明——当你试图开始收集并利用用户信息达成某些目的时,一旦出事,即使你浑身张嘴也别想洗刷清白。
短期效果、长期成本以及风险系数,对于Tumblr来说,AI鉴黄系统不同于某成人视频网站,它除了要有效筛选成人向内容,还要从中将正常性谈论筛选出来推荐给大家,如果给做这件事情的难度打个分,我给五颗星!
可见,Tumblr的AI鉴黄计划可谓是任重而道远,而现在我们看到的仅是一条规定,一切将在12月17日见分晓。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。