阿里达摩院上线文本天生视频大模子--4001百老汇

阿里达摩院上线文本天生视频大模子

文章泉源：4001百老汇咨询整理作者：4001百老汇咨询整理阅读量：756 宣布时间：2023-04-04

这波AIGC（使用人工智能手艺来天生内容）的热潮，，，，，，，，已经开卷视频了。。。。。。。克日，，，，，，，，阿里达摩院低调地在魔搭社区（ModelScope）放出了“文本天生视频大模子”。。。。。。。

据相识。。。。。。。现在文本天生视频大模子，，，，，，，，由文本特征提取、文本特征到视频隐空间扩散模子、视频隐空间到视频视觉空间这3个子网络组成，，，，，，，，整体模子参数约17亿。。。。。。。支持英文输入。。。。。。。扩散模子接纳Unet3D结构，，，，，，，，通过从纯高斯噪声视频中，，，，，，，，迭代去噪的历程，，，，，，，，实现视频天生的功效。。。。。。。

记者发明，，，，，，，，这个模子现在已经开放给用户试玩，，，，，，，，只要输入一些简朴的形貌词，，，，，，，，就可以看到天生的视频效果。。。。。。。好比输入“A panda eating bamboo on a rock”，，，，，，，，就可以看到一只大熊猫坐在岩石上吃竹子的画面。。。。。。。

不过，，，，，，，，现在这个模子还不支持中文输入，，，，，，，，并且天生的视频长度多在2-4秒，，，，，，，，期待时间从20多秒到1分多钟不等，，，，，，，，画面的真实度、清晰度以及长度等方面尚有待提升。。。。。。。

不止是阿里达摩院，，，，，，，，总部位于纽约的人工智能首创公司Runway也宣布了一种从文本到视频转化的AI模子Gen-2。。。。。。。上个月，，，，，，，，这家曾加入建设Stable Diffusion的公司推出过模子Gen-1，，，，，，，，能通过文本提醒或参考图像指定的气概，，，，，，，，将现有视频转化为新视频。。。。。。。好比将“街道上的人”酿成“粘土木偶”，，，，，，，，只需要一行提醒词。。。。。。。

早在去年，，，，，，，，谷歌和Meta都展示了各自在文本转视频上的实验，，，，，，，，使用AI天生泰迪熊洗碗和在湖上泛舟等视频。。。。。。。但这两家公司都没有宣布将相关手艺推进到研究阶段以外的妄想。。。。。。。

不过，，，，，，，，从现在此类模子天生视频的期待时间，，，，，，，，画面的真实度、清晰度以及长度等各方面来看，，，，，，，，距离产出令人知足的视频尚有很大距离。。。。。。。

我国首款“量子芯片冰箱”问世华为基本实现14nm以上EDA工具国产化

Online consultation

在线咨询

咨询热线

010-67280121

4001百老汇

阿里达摩院上线文本天生视频大模子

相关资讯