阿里图像生成视频模型I2VGen-XL代码发布

企业服务生
企业服务生 这家伙很懒,还没有设置简介...

0 人点赞了该文章 · 6 浏览

阿里图像生成视频模型I2VGen-XL代码发布

阿里在11月份发布了论文,宣布将开源I2VGen-XL图像生成视频模型。如今,他们终于发布了具体的代码和模型。这一模型可以生成没有大幅人物动作的视频演示。

I2VGen-XL模型分为两个阶段。首先是基础阶段,该阶段通过使用两个分层编码器来保证连贯的语义,并保留输入图像的内容。其次是优化阶段,该阶段通过整合额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。

代码地址:https://github.com/damo-vilab/i2vgen-xl

为了优化模型,研究团队收集了约3500万个单镜头文本视频对和60亿个文本图像对。通过这些数据,I2VGen-XL模型可以提高生成视频的语义准确性、细节的连续性和清晰度。

发布于 2023-12-30 20:48

免责声明:

本文由 企业服务生 原创或收集发布于 火鲤鱼 ,著作权归作者所有,如有侵权可联系本站删除。

火鲤鱼 © 2026 专注小微企业服务 冀ICP备09002609号-8