您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给nebula
发送

0

阿里34篇论文入选国际顶会CVPR 2024,Animate Anyone、EMO等模型亮相

本文作者: nebula 2024-06-26 14:26
导语:近日,国际计算机视觉顶会CVPR 2024在西雅图召开,阿里共34篇论文被收录,其中有6篇入选Highlight和Oral Paper。

近日,国际计算机视觉顶会CVPR 2024在西雅图召开,阿里共34篇论文被收录,其中有6篇入选Highlight和Oral Paper,被收录论文研究方向涵盖多模态模型、图像编辑及可控视频生成等前沿领域。早些时候火遍国内外的Animate Anyone、EMO、Facechain等模型也在会议现场亮相,并吸引了大量参会人员的关注与体验。

阿里34篇论文入选国际顶会CVPR 2024,Animate Anyone、EMO等模型亮相 

CVPR是计算机视觉领域最顶级的学术会议,每年都有大量企业、研究机构和高校参会,过去十几年曾诞生了ResNet、ImageNet等极具影响力的研究成果。据统计,今年CVPR共提交了 11532 份论文,最终2719 篇被接收,接受率只有23.6%,为近4年最低,而Highlight和Oral的占比仅为11.9%和3.3%。

在阿里通义实验室的Highlight论文《SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing 》中,研究团队提出了一种全新的图像扩散生成框架 SCEdit,它引入了全新的SC-Tuner的轻量级微调模块,通过对原始模型进行细微的调整,大幅度降低了训练参数量、内存消耗和计算开销。实验结果显示,SCEdit可快速迁移到特定的生成场景中,相比LoRA节省30%-50%的训练显存开销,可应用于边缘图、深度图、分割图、姿态、颜色图、图像补全等条件生成任务。目前相关代码及微调模型均已开源。

阿里34篇论文入选国际顶会CVPR 2024,Animate Anyone、EMO等模型亮相 

会议现场,阿里首次在海外展示了基于Animate Anyone和EMO打造的大模型应用,吸引了来自全球各地参会者体验。过去半年,这两个项目在Github上累计获得超20k的Star,是视频生成领域的标杆项目。

据介绍,目前通义大模型家族已拥有文本生成、图像生成、视频生成、图像理解等全模态能力。不久前开源的Qwen2-72B是全球性能最强的开源模型,性能超过美国最强的开源模型Llama3-70B,也超过文心4.0、豆包pro、混元pro等众多中国闭源大模型。

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说