李飞飞GOOGLE联合发布AI视频扩散模型W.A.L.T [复制链接]

gythy1978

军衔等级：

少将

发表于 2023-12-12 15:38:22 |显示全部楼层

今日凌晨，李飞飞的斯坦福团队与GOOGLE联合发布用于生成逼真视频的扩散模型W.A.L.T，基于Transformer训练而成，支撑文生视频、图生视频和3D摄像机运动。据先容，该方法有两个关键的设计，一是使用因果编码器，在统一的潜空间内联合压缩图像和视频，从而实现跨模态的训练和生成；二是为了提高记忆和训练效率，使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后，团队针对文本到视频的生成任务训练了由三个模型组成的级联，包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型，能够以每秒8帧的速度生成分辨率为512*896的视频。
项目地址：walt-video-diffusion.github.io/
论文地址：walt-video-diffusion.github.io/assets/W.A.L.T.pdf

2023年俨然已成AI视频元年！视频大数据时代，真的来了！

举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-9-20 06:14 , Processed in 0.088024 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册