0
10月中旬,AI科技评论报道了《虚拟在左,真实在右:德国学者用AI合成一亿像素逼真3D图像,可任意旋转》一文,有技术爱好者感叹:
「原来计算机视觉也还没有内卷到无可救药的地步。借助计算机图形学与其他学科知识,计算机视觉的发展也有望取得进一步突破,更上一层楼。」
事实上,除了研究成果的创新,计算机视觉的商业落地也一直是产学研三界的热门话题。长久以来,人们也一直对计算机视觉存在或多或少的误解,其中一个最常见的问号是:除了人脸识别,这项技术还有什么用?
在决策智能的话术逐渐占领传播的高地后,感知智能的声音开始减弱。与此同时,随着「AI寒冬」的舆论对深度学习的批判,基于神经网络的视觉研究在商业前景上也跟着被「唱衰」,一度成为枪口的正中点。
不过,决定创业的贾佳亚并不太在意这一点。2019年年底,从腾讯离职的他,在香港科技园创立思谋科技,宣布进场,没多久就完成了IDG资本领投的数千万美元融资。今年6月,思谋科技又获得2亿美元的B轮融资,人员规模也在一年内从最初的个位数扩展到超过600人。
计算机视觉领域顶尖专家、IEEE Fellow、香港中文大学终身教授等头衔,无疑为之加持,但无论是贾佳亚本人,亦或外界,都认为思谋能在AI落地的急流中「站稳脚跟」,除了深厚的技术积累,也离不开正确的赛道:工业制造。
沈小勇是最早跟随贾佳亚创业的学生之一。他对AI科技评论表示:「我认为思谋科技不是一家AI公司,而是一家『工业制造+AI』的公司」。换言之,思谋科技的模式不是「AI+」,而是「X+AI」,其中的「X」,就是行业。
比如,他们发现,在他们与国际头部光学厂商合作的镜片隐形二维码识别项目中,最大的「助攻技能」竟然不是超强的算法,而是光学系统的设计。这个在计算机视觉领域有多年积累的创业团队,也不得不面临的「心理落差」是:要取得客户的信任,除了算法能力,还要打好行业根基。
1、入场
公元二零二零年十二月,广州黄埔区北边知识城内的一家厂房内,经过一番激烈的比拼、与数位顶尖同行切磋较量后,思谋科技战略客户经理刘浩然走出思绪纷飞的房间,心满意足地吸了一口南方的冷空气。
在这场方案的提交之战中,他所代表的思谋科技PK掉了其他同台竞争的厂商,取得这家有着超过175 年历史的全球顶尖光学厂商(以下暂且起代号为「Z」)的信任,拿到了思谋创业一年后在精密光学领域的第一份合同。
这也意味着,在接下来的4-5个月内,思谋科技要研发出光学领域第一台由人工智能初创企业开发的镜片隐形二维码识别设备。
在此之前,思谋多是将计算机视觉用于3C消费电子产品的零部件瑕疵检测。但对于一个从创业之初就渴望成为「中国IBM」的团队来说,思谋还想挑战更高难度的落地。所以,能够拿下这家500强巨头的订单,对思谋来说,确有几分里程碑式的意义。
图 / 新广州知识城
刘浩然不惜口舌之战拿下的光学项目,是思谋科技毅然入场「工业制造」的一个缩影。
思谋科技的创始人贾佳亚是计算机视觉领域的知名学者,谷歌学术被引数超过36000次,曾培养出多位人工智能领域新秀,包括商汤科技的联合创始人兼CEO徐立。在进入工业界之前,他所创立的视觉实验室便已在图像滤波、图像稀疏处理、多频段图像信号的融合以及增强和逆向视觉问题解法等方面有了深厚的技术积累。
因其在计算机图像去模糊技术方向做出的贡献,他在2018年当选了IEEE Fellow。
图 / 贾佳亚
在创立思谋科技前,贾佳亚的第一段工业界之旅是在腾讯优图实验室(X-Lab)。
2017年5月加入腾讯时,贾佳亚带了两位想跟自己到外面「闯一闯」的学生,沈小勇就是其中之一。那时,沈小勇刚毕业没多久,对研究落地也很感兴趣,于是就跟着导师加入了X-Lab担任研发负责人,并迅速成长为当时腾讯最年轻的T4科学家之一。后来,2019年,贾佳亚决定离开腾讯、创立思谋,没多久,沈小勇也跟着离开,成为了思谋科技的联合创始人兼CEO。
图 / 沈小勇
据沈小勇介绍,他们在腾讯时就已经有过将计算机视觉在工业生产上落地的探索:TCL旗下液晶面板生产子公司华星光电的面板缺陷检测。
华星光电的液晶面板生产涉及上百道工序,生产过程中可能出现的面板缺陷种类多达120种,贾佳亚带领团队设计出人工智能质检设备搭载在生产产线上,可以在5秒内识别出面板缺陷,产线所需的质检人员只需原先的50%。
正是有感于计算机视觉在工业生产优化上的神奇作用,贾佳亚在启动思谋科技时,就确定了接下来的赛道:工业制造。
从18世纪60年代开始,工业革命对人类历史的进程产生了重要影响。如许多前沿学者一样,贾佳亚也相信,人类历史的当下正处于「工业4.0」时代:
「工业1.0」是机械制造,即通过引入机械设备实现工厂机械化的制造时代。上世纪40年代进入「工业2.0」,电气与自动化时代开创了产品批量生产的高效模式。70年代开始并持续至今的信息化则是「工业3.0」,通过数字化的技术将信息存储起来,方便工厂的决策者管理。而如今的「工业4.0」时代,是智能制造时代,对生产力提出了更高的要求,背后的动力极有可能是如今蓬勃发展的人工智能技术。
前三次工业革命,中国都没赶上。18世纪,中国处于闭关锁国的封建时期;上世纪 40年代,中国处于动荡之中;70年代,中国则刚刚起步发展。因此,对当下的中国来说,国泰民安,人才培养增多,资源丰富,抓住「工业4.0」的智能制造时代机遇至关重要。
智能制造的核心在于「智能」:智能并不是简单的自动化,而是让制造拥有「大脑」和让大脑决策的各种「神经系统」。
沈小勇介绍,本质上,计算机视觉要解决的是「看得清」与「看得懂」的问题,也就是看完后还要进行分析,对应人的眼睛与大脑。只有拥有敏锐的「眼睛」与聪明的「大脑」,才能最大化发挥自动化「手臂」的作用,而AI正是让制造拥有会思考的机器设备的核心所在。
思谋的创始团队相信,新一代AI将贯穿于设计、生产、管理、服务等生产活动的全链条,使制造具备自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。
在2015年提出的「中国制造2025」计划中,工业计算机视觉应用占了重要位置。
从人脸识别到工业智造,计算机视觉的落地目前已跨越了半导体、汽车、航空、新能源、精度光学等行业,如镜片分拣、轴承检测、特种条码设计与识别、偏光弯膜、模具检测、AVI检测等。以芯片检测为例,基于深度学习的计算机视觉算法就有可以完成亿级晶体结构的全自动聚类分析:检出率超过99.99%、单流程处理效率提高96%、AI自动化全检处理效率提升90%。
传统制造业在国家经济中的占比,就是智能制造未来的市场容量。据国家统计局数据显示,2019年、2020年,中国工业增加值的规模均超过了31万亿。工业领域1-2%的效率提升就意味着数千亿级的经济增值。
在此背景下,自然不止思谋科技这一家AI出身的团队盯上「工业制造」与「数字转型」的赛道。
但在了解计算机视觉赋能工业制造的雄心前,我们无法逃避面对的一个事实是:无论是「工业」,亦或「工厂」,都是一个极其庞大的存在。这也意味着,计算机视觉算法只是繁杂工艺中的一环,要嵌入完整的生产线上,必然会遇到与其他环节合作的挑战、甚至与工业本身的相互磨合。
2、乐起
仔细说来,这并不是一个多么跌宕起伏的故事。
简单来说,在与Z的合作中,思谋科技要做的事情,就是设计一台能够智能定位识别及读取不同度数的镜片上的隐形二维码设备(Enigma Reading Machine),安装在Z的产线上,方便Z在生产的全过程中把控镜片的质量,实现防伪功能。
我们可以将这个二维码理解为「普通」的二维码,只不过它由0.125毫米点阵组成,载体是一个个曲面镜片毛胚(我们日常戴的近视眼镜镜片原材料),并且是「隐形」的。
这个设备的工作步骤也很简单,只有两步:一,对整个镜片进行完整拍摄;二,在1-2秒内成功读取镜片上的隐形二维码,并自动将数据上传到Z的内部质检系统中。
但、就是这么看似简单的两个步骤,却难倒了这家头部光学厂商的几乎所有供应商。在Z抛出这个问题时,也曾有许多工业视觉或AI整体解决方案的公司尝试迎接挑战,但都以失败告终。
识别镜片中隐形二维码的难度极高,难点主要体现在三个方面:
(一)只有从特定的角度往镜片上打光,隐形二维码才有可能显现。而为什么只是「有可能」呢?因为Z使用了先进的镀膜工艺对镜片表面做了高透设计,即使从完全相同的角度打光,隐形二维码的读取也可能失败。换言之,读码率的稳定性极低。
(二)镜片的度数、厚度与品类(如近视眼镜与墨镜)不一,造成光线的反射率也不一样,因此隐形二维码的嵌入方式与位置也会有所差异。
(三)镜片的材质是透明玻璃,会反光。即使是没有任何折射角度的无度数镜片,机器也不一定能在透明的介质上自动识别到隐形二维码。更严峻的现实是,镜片分为凹透镜与凸透镜,度数不一,光线折射的角度也不一。
图 / 镜片中的二维码极小,只有在特定的角度与光线上才能显现
思谋科技的解决方案架构师周工介绍,识别隐形二维码的技术难度绝对处于金字塔的顶尖级别:
「就打光来说,它就已经完全颠覆了传统的视觉打光方式。传统的打光方式是被测物体与打光镜头基本成一个相对位置,比如被测物垂直于光源,直接受光。而在隐形二维码的识别技术中,被测物的点阵二维码的呈现是通过思谋自研光源发出光束穿过镜片直接照射到膜材、然后反射回直径小于0.125毫米的一群小光束的原理。」
借用贾佳亚对半导体产品缺陷检测难度的表述,要在曲面类型多样的玻璃镜片上准确识别直径只有0.125毫米的隐形二维码,难度绝对比「在整个广东省内,一秒钟内定位出一个有轻微故障的红绿灯」还要高!
这不仅要求研发团队具备算法能力,他们还要精通光学原理与膜材设计。
换作普通的光学厂商,一遇到这么棘手的问题,可能早就摆手不干、寻找其他性价比更快的替代方案了。但Z这样历史悠久、实力雄厚的企业不同,他们作为标杆,凡事追求「最好」,毕竟具备足够的技术创新条件。而不断追求技术实力甩对手几条街的理念,也正是他们能够伫立国际市场多年而不倒的根源所在。
所以,即使难度重重,Z也不惜克服万难,寻找可以定位并识别隐形二维码这一「小滑头」的方法。
此前,Z识别隐形二维码的方法主要有两种:
第一种是「源头管控」,开模时就预先在模具上刻出隐形二维码,在镜片成型时将二维码一同印在镜片上,然后通过模具的编号进行镜片追溯。这种方法的短板是只能在源头管控。
隐形二维码就相当于一个镜片的「身份证」,每完成一道生产工序就要进行一次识别,以证明该二维码「顺利」地走完了所有工序。因此,如果只是在源头管控,就相当于只监测到了最开始的开模工序,无法通过在全产线中追踪该二维码、以把控每一个生产环节的质量。
第二种方法是高价购入一台德国隐形码识别设备。但很遗憾,这是一台单体设备,只能人工手动检测,识别的速度慢,价格也十分高昂。此外,由于设备从德国进口,受知识产权的保护,Z只能购买标准的模块,无法集成其他设备,也就是无法配合他们的产线进行定制化设计。
3、副歌
当时,作为一家刚成立不到一年的「小厂」,思谋科技选择挑战Z的这个项目,更多是想要抓住一个重要的「成长机会」。
他们的目标阵地是工业产品的外观检测,如果能成功突破镜片隐形二维码识别的技术,那么对他们进军精密光学领域自然大有帮助。
所以,在刚接到任务时,他们也是心情澎湃,撸起袖子就准备大干一场。
但理想很丰满,现实很骨感。很快他们就发现:事情没有那么简单。
虽是「识别」,但他们要攻克的技术却不只是机器的「眼睛」,还有目标识别物背后的光学原理。而且,后者才是他们要面对的「大boss」。
所幸,思谋有先见之明,在刚成立时就为进军工业赛道筹备了两大团队。在工业产品缺陷检测中,核心技术有两个:一是视觉算法,二是光学成像。所以,除了贾佳亚、沈小勇带领的CV能人,思谋在一开始就成立了一个光学实验室,并招募了一批经验老道的光学系统研发人才。
机器要识别的隐形二维码大小为2mm*2mm,其中,每一个小方块(即「点阵」)的直径则是0.125mm。
从光学的原理来看,在打光时,镜片的膜材料必须将光源分解为一束束直径比125μm还小的光束,隐形二维码才能显现出来。这是因为光束通过微小间隙后的传播不一定是线性的,如果同时通过两个小孔,就会产生衍射条纹。而衍射条纹并不是固定的,就会导致检测失败。
此外,镜片是一种三层结构,即「空气-膜-玻璃」。光的入射角、膜的厚度与折射率等等都会影响光的传播,某些角度下甚至可能在膜里产生全反射,导致隐形的二维码无法被检测。
也就是说,思谋要用计算机视觉算法成功识别镜片上的隐形二维码,最大的难题其实是找到一种高透光度、高光洁度、耐高温、满足高精度陶瓷刀具加工强度的特殊膜材料,并且能够兼容不同曲率、不同折射率的镜片,使光束能从不同的方向平行射出。雷峰网(公众号:雷峰网)
在4个月的项目期里,除了开发算法与制造设备,他们花费了超过一半的时间与精力在寻找适合「机器识别」的膜材料上。
为了弄明白如何使隐形二维码的成像更清晰,他们推理膜材料的加工原理,买来了各种原材料进行验证。周工对AI科技评论回忆:「我们做了不下100次的实验!单单光学原理验证,就花了3个月。」
功夫不负有心人。最终,他们选择了多面体微钻石结构的光源反射膜,但所需的膜材料十分特殊,市场上没有,所以他们需要自己研发设计。雷峰网
「这一环消耗的时间最多,因为加工的膜材料要求纳米级的精度,刀具要从日本定制。」
在这个过程中,他们频繁地与国内外的光学厂商、高校研究团队交流,「最常交流的是原材料厂商,因为他们会知道膜材在什么温度下的加工效果最好,透射率与折射率如何达标等等。」周凯鹏谈道。
经过100多次的膜材开发与反光测试,就像在上课铃响的1秒钟冲入教室一样,今年4月,他们终于在约定交付日期的前两天解决了膜材料问题,并完成生产加工。交付时,Z所提供的44片100-700度的镜片样品全部扫码成功,令Z的代表十分惊喜。雷峰网
最后,思谋科技自研的膜材料可以做到:无论镜片是凹是凸、度数多少,机器都可以将镜片上的隐形二维码完整识别出来。度数越低,识别的速度越快,500度以下的镜片甚至可以在50毫秒内识别出来。
图 / 思谋科技的视觉检测软硬件一体化设备
纵观计算机视觉在工业上的落地,他们的此次探索对于透明介质产品的缺陷检测具有划时代的意义。除了玻璃镜片,他们的方案也可以拓展至面板类产品的裂痕检测与缺陷检测中,比如车灯透镜与手机摄像头的瑕疵检测。
但很显然,从上述的故事中,我们看到的似乎更多是沉闷的、陌生的光学难题,而不是AI的「大力出奇迹」。
一位精密光学领域的行家告诉AI科技评论,在工业生产中,材料、方法与环境往往占主导位置,基于神经网络的视觉算法只是众多方法中的一个组成部分,甚至在大多数情况下,「不一定需要多复杂的算法,而是更多地受到其他现实因素的影响。」
因此,AI在工业上的落地,更偏向于高速视觉识别或精密视觉识别的范畴。计算机视觉团队要想取得突破,难点也自然更多地落在了「成像」与「控制」,而不完全是「算法」。
4、尾声
一个有趣的视角可能是:在AI、甚至任何一项技术的落地中,任何强大的科学家都不再是「科学家」,而是「技术供应商」。最终,决定科学家创立的公司是否能在市场竞争中存活的,也许不是学术积累的深度,而是技术落地的实力。
计算机视觉在精密制造中的落地,是一个科学/工程探索过程,不仅需要先进的深度学习算法,还要深谙光学原理与材料工艺,掌握多学科、懂机理、能实现的技术。
沈小勇谈道:「别人问我科学家创业的问题与挑战时,我回答比较多的是,最难的是在将商业价值最大化的情况下形成技术到产品、再到市场的闭环。」
此外,技术的落地,也许无法避免采取「以点带面」的策略。对于大多数工业制造厂商来说,他们对AI技术并不精通,在传播深度学习视觉算法的优势时,往往要先通过一个项目合作来呈现、渗透,然后再去展示人工智能在工业制造与数字转型上的力量。
这个项目完成后,他们继续与Z开展了其他合作,让计算机视觉与其他机器学习方法在精密光学领域有了更多的应用。除了镜片隐形二维码的识别,Z又向思谋提出了更多生产线上的需求,包括难度极高的AR镀膜工艺大数据分析。
而与Z的合作,也让思谋有一个深刻的体会:「只有创新,才可以创造价值。」
对于一个精通深度学习的视觉算法团队来说,所谓的「创新」,大约就是不断挑战算法与行业结合的技术边界,掌握更多算法以外的工业制造知识,从而实现「X+AI」的蓝图。
而这,也是AI落地的时代所趋。雷锋网
(文中刘浩然与周工为化名,李扬霞、刘杏花对本文亦有贡献)
参考链接:
https://baijiahao.baidu.com/s?id=1670795055818283346&wfr=spider&for=pc
雷峰网原创文章,未经授权禁止转载。详情见转载须知。