0
从画图到写诗,从文案到制表,从PPT到写代码,十几个月以前,如果有人说,这些工作都可以用 AI 代劳,相信的人恐怕寥寥无几。
然而科技发展的起速却总是爆炸性的,2023年还远未结束,生成式 AI 的风潮就席卷了整个科技圈,让人无不心驰神往,趋之若鹜。
在由 GAIR 研究院、雷峰网(公众号:雷峰网)、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会上,AIGC 领域的各路大牛齐聚在新加坡乌节大酒店,向世界分享他们在生成式 AI 领域的一手信息和最新认知。
此次参与 GAIR AIGC 和生成式内容分论坛的发言嘉宾有:
南洋理工大学计算机科学与工程学院助理教授,潘新钢
joinrealm.ai 创始人,蔡丛兴
新加坡 Help&Grow 社群发起人,王桐
荔枝集团 CTO,丁宁
南洋理工大学高级研究科学家;Deepir Inc. 创始人,吴鹏程
腾讯海外游戏发行算法中心主任,郎君
在当下炙手可热的 AI 赛道,如何保持清醒的头脑,在技术、产品和商业模式上精研革新?与会嘉宾们又有哪些真知灼见,让他们能够在生成式 AI 的热潮中长风破浪?
提到 AIGC,在当下的赛道,所有人第一个总会想起在海外评价颇高的 MidJourney,和它背后的技术支持——扩散模型。
而来自南洋理工大学计算机科学与工程学院的助理教授,曾在港中文师从汤晓鸥教授的潘新钢,却在他最新的“视觉内容关键点拖拽式编辑”中,果断放弃了扩散模型,而是使用了一项更“老”的技术——生成对抗网络(GAN)。
不少人看到了 AI 生成图像的强大能力,就认为 AIGC 的时代已经来临;而潘新钢却发现,“生成图像”往往不是用户创作过程的最后一步。
后续对图片的调整——尤其是对 AI 生成的画面元素往往充满不确定性,要满足用户的需求,就必须得让画面中的各个元素可以在后期被用户微调。
比如 AI 生成了一只很逼真的狮子,用户如果想要狮子的头转一转、移动它的位置、甚至改变狮子的表情,以当下的产品形态就很难完成。
这些操作听起来简单,但都是关于物体空间属性的精细控制,在技术上还面临着巨大的挑战。
过去曾有方式是沿袭文生图的思璐,去根据文字的指引编辑图片——比如“让狮子的鼻子向右移动30像素”。
但这个解决思路也存在问题:
一方面,是文字模型对于物体空间属性的理解必须足够强大,才能满足用户不一而足的编辑需求和方式,让交互更直观;
另一方面,对于语言模型来说,它很难精确理解图像中的长度和尺寸,这也给视觉内容编辑带来了不小的麻烦。
交互层面,对于用户来说,最直觉、最易用的,无疑是拖拽式的交互;而从技术实现层面,用户只需要指定一个红色的抓取点和蓝色的目标点,由 AI 把红点所对应的图像的语义的部分,移到蓝点的位置,就能达到对图像空间属性的编辑的效果。
在过去,也有人开发过类似的功能,但通常需要对所要编辑的图像进行网格化,并且对物体的高度有一定的假设——对图像的编辑不过是对原图2D的扭曲变形,没法生成新的内容。
既要精细,又要有生成内容,潘新钢在做技术研判时并未采用当下最热的扩散模型,而是选用了生成对抗网络的技术。首先,是 GAN 所描述的图像空间非常连续,比扩散模型连续很多;其次 GAN 的 comtact 的隐空间非常适合编辑的属性。
而随着潘新钢团队研究的进一步发展,他们又在原有基础上支持了多点编辑,可以让图像内的物品姿态改变,重新设计一款车的外形、或改变车的视角,让一只小猫睁一只眼闭一只眼,改变人像的发型或表情、姿态或衣服长短,让使用者能更方便地对图像进行编辑,甚至可以以这个方式,来完成视频内容的生成。
当下这个工作已在 GitHub 上开源,并且获得了32000个 Star。
而未来,把 GAN 和扩散模型结合,是潘新钢对于正在完成工作的一个愿景——既有扩散模型的生成能力,又有 GAN 在图像编辑上的优势,同时也或许可以将这些能力运用到视频和 3D、4D 内容中,让未来的AIGC 更智能、也更易用。
从美国加州南湾硅谷的山景城而来,joinrealm.ai 的蔡丛兴有一个做AIGC社交网络的梦想。
2016年左右就加入 Snapchat,在公司负责短视频的产品开发,蔡丛兴经历过短视频行业的超高速发展期。而在 TikTok 无有争议地在海外成为了现象级产品之后,蔡丛兴又动了别的心思:
“我们觉得,在生产式短视频内容的赛道上,大家已经朝着某一个方向发展;而未来,在生成式视频上,产业一定会有一个新的突破。”
于是,蔡丛兴和朋友一起,创办了 joinrealm.ai,
蔡丛兴认为,AIGC是一个特别宽泛且抽象的概念,而 joinrealm.ai 的方向,主要是介于“直接提供API”和“完成人机交互革新”的中间地带——对于内容创作商业模式的探索上。
“为什么内容创作这个模式很重要?基于我们对于短视频的这个过去十年的观察,很大的一个变革,实际上是因为智能相机的出现。智能相机的普及,很大的程度上它不仅仅是给了每个人一个手机,而是给世界提供了几十亿个移动的基础设备。”
从“word”到“story”,是 joinrealm.ai 创业的一个核心关键——借由AI,用户能把自己脑海中的内容呈现成图像,就如同一个“思维的相机”。
而要想达到这个效果,蔡丛兴在 joinrealm.ai 的探索中发现,还有许多问题亟待解决:
首先,是 Prompt 和自然语言的差异仍然存在——Prompt 归根结底还是一种大众难以直觉理解的程序语言,用户仍然要经历大量的“尝试-失败-尝试”的步骤,才能生成出他们想要的内容;
其次,就是基础模型在今天仍然并不能完全满足 AIGC 用户的需求,以 Stable Diffusion 为例,新用户愿意分享生成内容的比例,在今天大概还低于20%;
缺少可以由用户精调的概念,也是 AIGC 当下面临第一个重大的问题,用户很难借由一套被定义了的概念,去控制 AI 的生成,也就很难控制自己“故事的讲述”;
最后,就是图像生成结果和成本之间的效率平衡,如何在更低的价格区间里,生成更高质量的内容,也是 AIGC 在当下一个难以忽略的问题。
为了迎接这些挑战,蔡丛兴和团队见了将近一百位有影响力的AI创作者,发现他们的制作方法大多独特,很少雷同,并且都会使用大量的工具,不断地调试、调节。
最终,joinrealm.ai 在研判后,决定在三个关键点完成升级:
首先是工具链,通过完成用户交互界面的优化,让使用体验更优;
其次是让用户可以自建自己的 fine-tune,比如使用“我”的描述,产品就可以以用户自己的图像为基础,来更精准地生成自己想要的图像。
第三就是自建社区,让用户能够在社区里获得更多的使用教学和灵感启发。
新加坡 Help&Grow 社群发起人王桐作为主持人,与 joinrealm.ai 创始人蔡丛兴、荔枝集团的 CTO 丁宁、南洋理工大学高级研究科学家&Deepir Inc. 创始人 吴鹏程、腾讯海外游戏发行算法中心主任郎君共同探讨了当下 AIGC 与生成式内容的热点话题。
AIGC 的商业化模式更容易在 To B 领域落地还是在 To C 领域落地 ?各位嘉宾从各自经验出发设想了未来的落脚点。
郎君认为,To B 并不好做,因为需要根据多个不同的实际案例抽象提炼出一种解决方案去应对,To C 方面,在做游戏的运营的时候可以帮助很多游戏玩家快速地融入进游戏。内部在做算法的时候,郎君和团队也会不停地判断什么样的模式能更好地去深化 AIGC 落地的场景。
吴鹏程表示,To B 和 To C 都很有机会,但伟大的公司一定是 To C 。他结合妙鸭相机、苹果 VR 眼镜、数字人直播带货等今年在 ToC 层面做出成绩的公司,强调 AIGC To C 会诞生很多有趣的应用。
丁宁认为,AIGC 的商业化仍然处于偏早期的阶段,虽然有一些率先做出成绩的公司,但大部分还在路上。他特别强调,对于技术创业者来说,不能仅仅沉浸于对技术的感动之中,还应更多的考虑用户的需求和痛点。关于To B 和 To C 的落地,他表示To B 的市场很大,需要能力和资源,而To C 的竞争大,需要有对市场的敏锐察觉力、社区的运营能力等,两者未来都很广阔。
关于 AIGC 的出海和全球化,几位嘉宾分享了他们总结的经验。
郎君观察到,国内的团队有非常密集的人才优势,高效的知识分享途径以及对互联网行业的强大兴趣,这种配置的资源在海外其实并不多。他强调,当下 AIGC 还没有一个特别成熟的商业模式,所以谁有更好的资源组合的能力,谁就更容易“跑出来”。
丁宁认为,AIGC 出海首先要走出去,把身段放低,不一定非要把产品做到什么程度,意识到两年到三年的时间内是很难一下子在市场中获得成功。他补充到,尊重海外市场是很重要的,文化、语言、法律法规的差异都是这个非常大,需对当地市场有清晰的认知。
吴鹏程认为,AIGC 出海是很有机会的,一方面,可以把中国的技术用到国外;另一方面,国外也有本地需求,两者可以做深度融合,会产生巨大价值。同时也需要考虑到,出海只是第一步,也需要考虑如何才能在海外更好地遨游。
8月15日上午,GAIR大会的 AIGC 与生成式内容分论坛顺利告一段落。会场的氛围相当活跃,与会嘉宾也不吝倾囊相授,回答场内观众的问题,分享见解。
生成式 AI,在今天仍然是一个年轻的赛道,充满着非共识和未知的挑战。
而在 AIGC 的赛道上,从来不乏有勇气、有认知、敢实干的创新者,在这片未知的大陆,就算趟,也要趟出一条路来,引领这一场硅基世界的内容革命。
在后续,雷峰网也将持续输出与 AIGC 相关的其他内容,以落地、踏实的方式探讨生成式 AI 赋能现实世界、影响产业格局的可能性。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。