半年打造出国产 AI 视频生成利器，字节前视觉技术负责人王长虎交出答卷

本文作者：王悦

2024-03-13 16:38

导语：二十年磨一剑，王长虎新创爱诗科技成为 AIGC 产业新星。

2023 年 4 月，王长虎加入了AIGC创业大军成立了爱诗科技。

在此之前，毕业于中科大的王长虎有着 13 年的微软研究院工作经历。2017 年加入字节跳动，在职期间组建了字节 AI Lab 视觉技术团队，担任集团视觉技术负责人，参与抖音和 TikTok 等产品从 0 到 1 的发展、搭建字节跳动视觉算法平台和业务中台、主导字节跳动视觉大模型从 0 到 1 的建设。

23年之前，他虽然也考虑过创业，但时机尚不成熟，生成式AI技术的进步还不足以对社会产生颠覆性影响，直到 Stable Diffusion、ChatGPT的出现，王长虎就意识到新的AI时代到来了—— 因为 C 端的用户数说明了一切，ChatGPT两个月就达到一亿月活，超过了TikTok的记录。「这次创业是受时代和内心的双重感召，此刻就是最佳的时机。」

在 2023 年上半年国内市场疯狂卷大语言模型的背景下，王长虎坚信无论是过去、现在、未来，视频都是最重要的内容，AI视频生成如果能够做好，一定会从根本上改变人们创作和消费视频的范式，是个真正的大机会。因此，王长虎绕开了NLP大模型这个最火的创业领域，做自己熟悉、感兴趣的视觉大模型。

4 月，王长虎找到现在的合伙人、之前在光源资本TMT/AI方向负责人谢旭璋，并拿到超过五千万的天使轮融资，随即宣布成立了新公司「爱诗科技」（AIsphere）。6 月，数名核心人员就位，明确了做视频生成的方向，7月便开始训练大模型。

接下来半年的时间里，爱诗科技处于从0到1的攻坚期，并没有什么大动作，很少出现在公众的视野中。

直到 2024 年初，在海外一款名为 PixVerse 的 AI 视频生成产品短时间内获得海外用户的高度评价，并有许多优秀海外创作者自发使用PixVerse创作出了高质量、高热度的“大片”。

AI影视探索者闲人一坤用 PixVerse 制作《山海奇镜》，自1月初发布后在全网达到近百万的播放量。

AI科技评论获悉：PixVerse 是 AIsphere（爱诗科技）旗下的海外AI视频生成产品，现已在国外社区上线，国内产品也即将上线。

AIGC 风起云涌，AI视频生成追梦者不断，王长虎就是其中之一。

在他看来，尽管生成式AI时代已经到来，但新时代孕育的机会不仅是眼前所能见到和可预期的，技术端和用户端的共同探索将会带来更大的机会和颠覆性改变。

不输 Pika 的 AI 视频生成效果

2023 年下半年，AI 视频生成领域「如火如荼」。

Runway 推出了动态笔刷新功能 Motion Brush，用户只需在图片上轻轻一划，即可将其转化为动态视频；

Stability AI 发布了 Stable Video Diffusion 视频模型，创作者可根据需要调整迭代步数、重绘幅度等各种参数，以协助创作者精确掌控画面生成过程；

除此之外， Meta 推出了两项 AI 视频编辑新功能，Midjourney 也正在着手开发视频功能；而在开源方面，AnimateDiff、MAKEAVIDEO、MagicAnimate 等也在布局 AI 视频生成赛道。

其中，最出圈的非 Pika 莫属。Pika 1.0 官方宣传视频中，诸多用户用「惊艳」来形容其效果，更有“AI 生成视频的 ChatGPT 时刻即将达来”的说法。

但其实， Pika 创始人孟晨琳曾表示，目前 AI 视频生成产品处于类似 GPT-2 的时期。

事实也是如此，AI 视频生成最大的劣势，是画面的丰富度不够 —— 在生成的视频中，更多只能呈现嘴部或局部动作，很难整体动起来，这也是各家产品尝试解决的问题。

AI科技评论用同样的Prompt输入目前几款主流产品，尝试获得直观对比。

从结果上看，爱诗科技生成的视频不仅扎克伯格的形象更加精准，动作也相对协调，并且可以人物走起来，画面的延伸程度较高。

王长虎表示，爱诗科技希望未来能够做到在 15 秒时长内的视频中呈现更多的信息量，而非只是让画面主体轻微晃动3秒、5秒，让视频承载更多有意义的信息，并符合用户的期待才是核心的。

并且，清晰度、准确性等维度也是爱诗科技主要的发力点，现可以达到 4K 的分辨率。

视频中，猫⽿朵⽑的运动被清晰地体现出来，同时猫墨镜中的反射画面也随着动作变化。

在这一视频中，⼈脸的各个细节得到了还原，头发丝也清晰可见。

爱诗科技认为，做AI视频生成产品，最重要的，是让每个人的简单创意都能成为作品。

这也意味着，面对用户五花八门的 prompt ，只有保持较高的鲁棒性、稳定输出精准画面，才算是成功。基于这样的优先级，自然而然会影响爱诗背后数据采集、模型训练、特定功能路线的选择。

爱诗科技从7月开始训练模型，经过三四个月的打磨，产品效果已经不输同为「模型+应用」模式的视频生成产品 Runway 和 Pika 。

「我们想把整个行业的标准拉得更高一点。」王长虎表示。

脱胎于顶尖视觉团队的技术能力

在AIGC时代，视觉内容也依然会是最主要的消费载体。

回顾过去，从 PGC 发展为 UGC 的过程中，诞生了抖音、快手等现象级的产品。而今走在从 UGC 跨越到AIGC的路上，势必也会带来大量的机会。

王长虎认为，UGC 到 AIGC，变的是U和AI，最主要的视觉难题不尽相同，但系统性地解决视觉问题所需要的核心技术能力却一脉相承。

以抖音为代表的短视频产品举例，其成功离不开一系列视觉技术能力：对于短视频特效精准稳定的高效生成、对海量视觉数据的精确清洗和标注、对视频的低延迟抽帧和安全检查、对关键内容近乎完美的准确识别等。

这一系列技术支撑了短视频成为 UGC 时代的核心媒介，并且成为解决 AIGC 时代视觉生成上准确性、一致性、丰富度等难题的重要基石。

而这些，正是爱诗科技的优势之一 —— 拥有上一时代全球顶尖视觉技术能力的操盘经验，沉淀下了硬核的技术能力，工程化能力也足够强。「这也是我们对于AI视频生成这件事的信心来源。」王长虎说到。

在抖音、TikTok 这种数据量极大、用户量极高的产品上，所遇到的每一个问题都是「世界级」难题。过去和视频相关的数据、算法、工程等方方面面问题，爱诗的团队都遇到过，并且成功攻克，而这些经验能力可以在一定程度上直接复用。

现在来看，要想做一个好的 AI 视频生成产品，需要下面有一个基座的、动态的大模型，数据是其中重要的方面之一，但数据采集并不会构成真正的壁垒，如何做好数据的清洗、筛选等数据处理能力更加重要。

并且，在资源有限的前提下，并不是所有数据都可以用。在强数据处理能力的加持下，爱诗科技会通过 AI 能力自动找到最优质的那一部分内容，这部分可能只有竞品模型 1/ 10 的体量。如此一来，就有机会用更少的成本、更少的资源，更快地做出更好的模型。

同时，爱诗科技的核心团队曾经用AI解决了抖音和TikTok这些国民级产品的内容安全问题，因此也能很大程度增强视频生成的安全性。不管是用户恶意引导生成的违规数据，还是大模型初期被灌进的脏乱差数据，爱诗科技有能力在海量数据里面把这些内容识别出来，降低对模型质量的干扰程度。

除此之外，爱诗也关注视频生成的可控性问题，探索如何把运动的世界更好地建模，实现对运动中的人体和物体更精准的控制等。

另一方面，初创科技企业算力有限，把有限的资源用到极致，提高效能以减少训练和推理的时间，就尤为关键 —— 这正是是爱诗团队从过去的经验中打磨出的经验和优势。

王长虎告诉 AI 科技评论，在字节，面对像春节发红包这样一个时间点，流量可能是平常的数十倍甚至上百倍，需要在不添加额外资源的情况下确保服务器的稳定、不能影响用户的体验，这就需要极强的推理效率和工程架构能力。

在字节期间，王长虎带领的团队支撑了抖音TikTok等数十个产品和场景的视频AI能力。模型训练和推理需要巨大的GPU 资源，更重要的是如何用好这些算力，这其中包括模型增效、模型压缩等技术都是至关重要的。哪怕1% 效率的提升，可能意味着节省数百块GPU。因此，所有技术都需要做到极致。

映射在现在做视频生成模型的事情上，这种能力能帮助爱诗团队用更少的资源做出更多的事。比如原来一个视频生成可能要一分钟，具备这一能力后就可以用更少的时间完成，这意味着它占用 GPU 的时间更短，如此一来，同样的算力可以生成更多的视频。

「视频生成并不是像文生图那样堆资源和算力就行，在特定的时间内，不仅关乎你的资源有多少，也考验资源受限下如何更好地建模、更好地解决问题。」王长虎认为。

不同于LLM已经相对明确的发展路径，AI 视频生成还停留在技术突破的阶段。面对诸多的技术挑战、更高的用户期待，王长虎表示这也是令爱诗团队兴奋的一个点，解决未来一个阶段的问题，视觉大模型会有更大、更快的爬坡阶段。

对话王长虎

AI 科技评论：在当初创业的节点上，为什么选择做视觉大模型？

王长虎：我们开始做这件事情的时候，整个市场还是很冷的，很多人会觉得视频生成太遥远。但由于我们这个团队一直在做视频，所以我们对视频生成有一个自己的认知——未来AI生成视频会有一个快速的发展和爆发期。

过去这半年的发展其实是符合我们预期的，这几个月，越来越多的目光关注到我们，越来越多的同行参与进来，这印证了我们之前的判断。

AI 科技评论：是什么促使你选择做 AI 视频生成？

王长虎：首先，过去几年我们是伴随抖音TikTok这些国民级短视频成长起来的，我们对视频有深刻认知，视频在过去、现在和未来，都是最重要的一类内容，会带来巨大的机会。可能过去几年，并没有产生很多图片类的国民级产品，但是视频类产品更多，也是耳熟能详的。视频承载的内容更丰富，会带来更多的产品想象力，所以我认为做视频是更大的机会。

其次，NLP大模型，有chatGPT在前，文生图大模型，有midjourney在前，所以NLP大模型、文生图，国内更多是跟随。而视频领域，我们看UGC时代，最有影响力的视频产品就是抖音和TikTok，是中国人做出来的，是领先全球的。因此，视频生成领域，国内当然有机会比国外做的更好，抖音/TT背后的视频AI技术，很多都是我带着我的团队做出来的，因此我们有天然的优势。并且，与NLP大模型和文生图大模型不同，视频生成还在发展初期，我们有做成全球最好的视频生成模型的机会。

AI 科技评论：爱诗科技团队做AI视频生成有什么优势？

王长虎：从根本上来讲，建设视频大模型，数据、算法和工程能力缺一不可，都有很多问题是需要解决。而我们在建设抖音和TikTok的视频AI能力的时候，各种各样的问题都遇到过和解决过，踩过无数的坑，解决过无数的世界难题，我们这个团队具备这些能力。

而很多问题，我们的同行过去不一定遇到过，要解决问题可能还有不同的解决方案，有很多试错成本，探索也会有时间成本，而在当前这个阶段，时间是最重要的。

处理过抖音和TikTok这些全球范围内最大的短视频平台的多种问题后，我们具备了多种能力，像多模态之间的对齐、更有效的视频表征、多模态的表征，如何对视频的时空进行建模、如何在有限资源情况下把算法做到极致等。这些就是过去我们一直在做的事情。

做视觉大模型，本身就不是一个单点，一个算法，一个 paper 就能搞定的，它是一个系统工程。我们团队的核心的成员，处理过全球最大短视频产品的每天数以亿计的视频数据，用视频AI解决过抖音TikTok背后无数难题，解决过这些国民级产品背后成百上千个服务、数万个GPU的工程问题。而这些能力很多都是做AI视频生成大模型的基础。

AI 科技评论：爱诗科技团队脱胎于国内顶尖的视觉团队，和过去相比有哪些进步之处？

王长虎：创业和在大公司做事是不一样的，最大的不同，是创业公司初期资源特别有限，没有那么多试错机会。而在字节，我们有机会从 0 到 1 把事情做成，踩过很多坑，积累了很多经验和能力，这些经验和能力对于初创公司至关重要。

我们认为现在做的事情其实是一件更大的事情。我个人经历过好多时代，从零几年那个时候的搜索时代，到之后的深度学习的时代，后来进到字节之后的UGC 时代。UGC时代用户生产内容的效率比PGC的效率更高，涉及的范围也更广，也带来了更大的商业化机会，抖音、快手等短视频平台应运而生。

现在的不同之处在于，我们做的是 AI ，它生产内容的效率会更高。可以预见，AI 生成视频很快就会进入快车道，当生成视频的质量足够好、效率足够高，那肯定会再开启一个新的时代，那这个时代就有巨大的机会。现在很多革命性的产品过去都是人们所想象不到的，放在AI视频这个赛道上也是同样的。

对我们来说，这个时代会更加考验我们的创造力，不管是模型层面的，还是产品、应用层面的。 AI 时代的这些人，也要像 AI 一样更快的进化，团队中的每一个成员都在快速地成长。

AI 科技评论：现在来看，AI视频生成产品正火爆，如何看待这一现象？

王长虎：做AI视频生成，就像在做一个AI摄像机，但它不需要摄像头这种硬件，不需要再去动画工作室里面去创作，而是用AI直接生成视频内容。越来越多的人去做这样一个AI摄像机，我觉得这是好事，可以快速能推动这个技术的成熟。其实更重要的是，一旦AI摄像机做成熟之后，背后带来的新的、更大的机会。

回过头去看移动互联网时代，手机摄像头越来越小，这种技术成熟之后催生了抖音、快手，极大地改变了人们的生活方式。我们目前具备最强的视频生成能力，同时也期望抓住AI 视频生成带来的更大的机会，所以，我们也特别欢迎同行能够发展越来越快，一起促进行业进步。

AI 科技评论：当下市场上不同的 AI 视频生成产品有什么差异？

王长虎：每个公司都有自己的认知，也有自己的基因。像Runway 生成的视频，虽然有时候主体会动不起来，但看起来很有大片的即视感，这跟早期服务于很多专业创作者，跟服务于电影行业有关。而我们的基因是伴随着抖音和TikTok成长，我们希望服务于每天玩抖音和TikTok的普通用户。

所以，看似都是在做AI视频生成，都是在做「摄像机」，但背后想要的东西不同，服务的用户不同，然后产品化方向不同，这导致你在做的相机也会有区别。有人想做手机端上的相机，这就要求你一定要做得非常非常小，而有的人是在做单反。

AI 科技评论：未来， AI 视频生成前进的方向是什么？

王长虎：我们期待有一天能做到实时的内容生成，可能现在我们生成一个视频要几十秒，未来的话希望能实时生成，这有可能彻底颠覆人们生产和消费视频的模式。

现在我们跟视频的交流是单向传递信息，不管是在电影院还是在网上看剧，不同人看到的都是同一个电影、同一个剧情。但如果能实现实时生成，意味着每个人在消费视频的时候，都可以去影响里面的人物、剧情。AI 生成能力使得内容能够根据用户的交互，去自适应地改变内容。秒级的生成意味着它就会实时对用户的需求进行反馈，所以每个人看到的东西可能是不同的，消费的同时就在创造。

同时视频本身，也可以知道每个人的喜好，他可以对每个人交互定制化地演绎剧情，因此一个视频里面就拥有千万个甚至数以亿计的不同的剧情，它自己也可以进化了。那个时候视频的生产和消费的方式就会是颠覆性的，视频本身是也会迎来一个巨大的迭代，极大释放创造力，视频本身会有很多产品化的机会。

AI 科技评论：要想达到实时生成，需要具备什么样的条件？

王长虎：一是，生成的内容要反映用户的意图，生成东西是准确的；

二是，生成的内容一定要是逼真的，这里面的运动要复合物理规律，我们期待有一天生成的东西和真实的东西是很难去区分的；

三是，生成的内容要足够丰富，真的能够吸引人，当前产品的表现度都是不够的；

四是，要让用户低成本控制视频的生成；

五是，要实现高效地快速生成。

这几个其实不仅仅是算法、工程问题，在本质上是一个资源有限的情况下如何高效解决问题的思考和实践，这也是我们团队很大的优势。

AI 科技评论：AI 视频生成将会给当下的社会带来哪些可预见的变化？

王长虎：AI 视频生成从本质上来讲可以极大地降低人们去创作视频的时间的成本，并且各行各业也是有这样的视频生成的需求的。

同时，它有机会去改变原有的内容生成模式，颠覆之前的工作流。比如在影视创作的领域，有很多镜头演员拍摄的成本高、难度大、且具有一定的危险性，或者在广告领域，有一些天马行空的视频，也是可以用 AI 去生成的，有很大的存量市场，带来显著的降本增效。

此外，短视频的兴起虽然大大降低了内容创作的门槛，但实际上，能够真正输出优质内容的用户占比并不多，其中的门槛不在于拍摄，而在于创意。 AI 视频生成如果降低创意的门槛，帮助用户将灵感快速可视化、内容化，这也是一件非常有意义的事情。

AI 科技评论：基于 AI 视频生成会有哪些想象的空间，从业者应该如何做？

王长虎：当 AI 生成视频能够做到理解度高、时效性高的时候，比如用户说什么东西一下子就能生成了，并且没有任何门槛，且也能很方便地通过人工智能对内容不断修正和完善，这个时候才会有更多的用户进来，创造巨大的市场。可以预见的是，高质量 AI 原生内容的涌现，将会媲美甚至超越过去短视频带来的变革。雷峰网雷峰网雷峰网(公众号：雷峰网)

我们现在看到了这个机会，第一时间去锤炼自己的技能，当风口真正爆发的时候，我们才有机会去触摸到背后的本质。

未来是我们还是想希望能够建设 AI native 的视频平台，服务广泛的视频创作者和消费者。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

王悦

主笔

发私信

当月热门文章

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的