Stable Video Diffusion问世！3D人工合成功能引关注，网友：进步太快

时间：2024-02-03 12:20:44

风发自凹非寺

凝聚态位 | 社会大众号 QbitAI

Stable Diffusion公开终于对录像带下手了——

发表填充式录像带假设Stable Video Diffusion（SVD）。

Stability AI公开博客说明了，全新SVD反对文档到录像带、投影到录像带填充：

并且还反对物体从常规视角到多视角的转成，也就是3D催化：

根据外部评估，公开宣称SVD甚至比runway和Pika的录像带填充AI非常受用户追捧。

虽然现阶段只发表了基础假设，但公开谈及“正计划在此之后扩展，建立类似于Stable Diffusion的多样性”。

现阶段学术著作代码权重已上线。

在在录像带填充领域迅速出现新玩法，这次轮到Stable Diffusion下场，以至于帖子们的第一反应就是“快”，进步想像中快！

但仅从Demo功效来说，非常多帖子们对此并没有人觉得很有趣。

虽然我迷恋SD，而且这些Demo也很棒……但也普遍存在一些缺陷，光影不对、而且整体不连贯（录像带帧与帧之间闪烁）。

总归来说这是个开始，帖子对SVD的3D催化功能还剩是看好：

我敢打赌，很快就才会有非常好的东西出来，就让只要描述一下，就才会得到一个清晰的3D场景。

SD录像带公开版来犯

除了上面简介的，公开还发表了非常多Demo，先来看一波：

想像中空漫步也仍要上：

背景不动，只让两只鸟动也可以：

SVD的研究成果学术著作现阶段也已发表，据介绍SVD基于Stable Diffusion 2.1，用约6亿个样本的录像带数据集预训练了基础假设。

可轻松适应各种三角洲训练任务，包括通过对多配置文件数据集展开简化从单个投影展开多配置文件催化。

简化后，公开揭晓的是两种投影到录像带假设，可以以每秒3到30帧之间的自定义帧相对速度填充14（SVD）和25帧（SVD-XT）的录像带：

在此之后又简化了多视角录像带填充假设，叫做SVD-MV：

根据测试结果，在GSO数据集上，SVD-MV得分优于多视角填充假设Zero123、Zero123XL、SyncDreamer：

值得一提的是，Stability AI对此SVD现阶段仅限于研究成果，不适用于实际或零售领域。SVD现阶段也不是所有人都可以使用，但已开放日用户候补名单注册。

录像带填充大爆发

在在录像带填充领域呈现出一种“内讧”的境地。

前有PikaLabs合作开发的文生录像带AI：

后又有自诩“当今世界最强大的录像带填充AIMoonvalley发售：

在在Gen-2的“运动笔刷”功能也正式上线，指哪画哪：

这不今天SVD又出现了，又有要卷3D录像带填充的可能。

但文档到3D填充方面好像还没有人想像中多进展，帖子对这一现象也很是好奇。

有人认为数据是阻碍发展的瓶颈：

还有帖子对此诱因在于弱化学习还不够强：

家人们对这方面的最新进展有认识吗？追捧评论七区个人～

学术著作链接：_video_diffusion.pdf

参考链接：[1][2]

— 完 —

凝聚态位 QbitAI · 新闻报道号签约