您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给贝爽
发送

0

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

本文作者: 贝爽 2020-10-10 17:17
导语:化解视频通话时的尴尬,全靠它了。

“视频又卡住了”,“噪音太大,听不清你讲话”,“这画质也太有年代感了.....”

参加视频通话时,你是不是也经常会出现以上状况?

今年疫情突发,上班族都体验了一把在线云办公的快感。

但让人抓狂的是,每当谈到核心业务时,视频通话总会出现卡顿、噪音等意外状况。

最近小编发现一款AI工具,可以一键解决以上所有烦恼。它就是NVIDIA推出的一款Cloud-AI视频流平台——Maxine。

据了解,它可以在视频通话中,提供高清画质、噪音消除、目光校正,以及实时转录、翻译等功能。

更重要的是,它还可以支持电脑、平板、手机等多种类型的设备。

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

Maxine:高清、流畅无噪音

疫情虽然已经趋于平缓,办公模式也回到了线下,但视频通话也成为了一种常用的办公方式。如NVIDIA加速计算副总裁兼总经理伊恩·巴克(Ian Buck)所说:“视频会议现在已成为了日常生活的一部分,它可帮助数百万人工作,学习,娱乐,甚至就医。”

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

因此,英伟达推出了这款基于AI的云原生流视频平台Maxine,用于解决当前视频通话存在的最大问题。

对于视频通话来讲,首先要解决的就是画质、噪音以及流畅度等基本问题。从NVIDIA官网了解到,Maxine采用超分辨率(Super-Resolution)技术,可以实时将低分辨率视频转换为高分辨率视频。

如图,使用后的视频像素被提升至720p。另外,AI平台也增加了消除伪影的功能,可以使得画面更清晰。

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

其次,Maxine平台中的AI模块可以过滤掉常见的背景噪音,如敲击键盘、主机运行的嗡嗡声、家里吸尘器的声音等。

同时,为了更好地呈现通话中的你日通,Maxine还提供了实时翻译、转录字幕的功能。

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

最重要的是借助其视频压缩技术,可以有效减少数据传输的带宽。据了解,Maxine的可以将其减少到H.264视频压缩标准所需带宽的十分之一,可以及大地增加视频的流畅度。

大量用户同时使用云视频服务时,会对带宽带来很大压力,因此用户经常出现掉线、卡顿等现象。对此,NVIDIA高级产品总监安德鲁·佩奇(Andrew page)称,他们的解决方案是将带宽问题变成计算问题,因为相比于增加带宽,增加计算更为容易。

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

具体来说,Maxine 采用的AI视频压缩技术的核心在于它不是对整个屏幕的像素进行流式处理,而是分析通话中每个人的面部关键点,然后在另一端的视频中重新设置人脸的动画,如此一来便可以大幅降低的数据的传输量,同时还可以保证视频传输的质量。

“换脸”增强交互体验

不过,以上在NVIDIA看来只是一个视频通话工具的基本功能,而它的目标是打造更强用户体验的AI工具。

采用视频通话,而是不语音通话的一个基本诉求就是有面对面对视的交互感,但通常情况下,为了有更顺畅的交流,我们不得不紧盯着摄像头,而不是屏幕中正在对话的人。

现在Maxine可以缓解这一尴尬,它通过重建视频中的人脸图像,可以来让你看起来正在与对方进行眼神交流。

NVIDIA出品:AI视频通话神器,不仅高清,流畅无噪音,还能给你换张脸,增强交互体验

换句话说,AI通过自动生成一张虚拟人脸来自动调整面部的角度,让视频通话者看起来正自由地看着屏幕。

研究人员介绍称:

“借助计算机视觉技术,我们可以从多个角度定位一个人的头部,增强面对面交流的感觉,这将有助于人们进行更自然的对话。”

同时他也介绍称,这项假脸生成技术采用的正是生成式对抗网络(generative antivative networks,GAN)。

GAN曾被AI教父Yann LeCun称作是“过去10年机器学习中最有趣的想法”,它的原理是让两个神经网络相互竞争,来生成与原始图像高度吻合的虚假图像。风靡一时的DeepFake软件背后原理采用的均是GAN。    

研究人员介绍,视频连接后,发送端会传输交互者面部周围的关键点数据,如鼻子、眼睛、嘴巴等,接受端的GAN会用这些点和原始静态图像一起来激活通话屏幕中的虚拟人脸。

另外,在面对面互动体验方面,Maxine还增加了动画头像交互和虚拟助手功能。动画头像交互允许视频通话者根据喜好选择动画虚拟头像 ,这些头像虽不是真实的,但可以通过交互者的声音和情绪基调自动驱动。

而虚拟助手内置了NVIDIA Jarvis对话式AI框架,具有为实时性能而优化的最新模型,可以进行语音识别、语言理解以及语音生成的虚拟助手。比如在视频通话中,交互者可以让虚拟助手来记笔记、设置动作项目以及用类似人类的声音回答问题。

那么,这款集高清、去噪、低延时及强交互体验的视频通话工具,你要来体验一下吗?

参考链接:雷锋网雷锋网雷锋网

https://venturebeat.com/2020/10/09/ai-weekly-nvidias-maxine-opens-the-door-to-deepfakes-and-bias-in-video-calls/

https://nvidianews.nvidia.com/news/nvidia-announces-cloud-ai-video-streaming-platform-to-better-connect-millions-working-and-studying-remotely

https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/  

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说