CogVideo 文字生成视频开源模型

admin • 2024年9月7日 pm3:40 • 电脑知识

Post Views: 114

CogVideo（文字生成视频开源模型）简介

CogVideo 是一个文字生成视频开源模型，由清华大学讯飞联合实验室推出。该项目目前开源了两个视频生成模型：CogVideo(ICLR 2023)和CogVideoX系列。该模型能够根据文本输入生成相对高帧率的视频。

CogVideo 是首个开源的预训练文本到视频生成模型，能够根据文本输入生成相对高帧率的视频。

CogVideoX 则是 CogVideo 的升级版本，是清华讯飞实验室在 2024 年开源的视频生成模型系列。目前已开源了 CogVideoX-2B 和 CogVideoX-5B 两个模型，分别具有 20 亿和 50 亿参数。与 CogVideo 相比，CogVideoX 系列在生成视频质量和视觉效果方面有了大幅提升。

CogVideoX 系列在模型架构、训练策略等多方面进行了创新，例如采用了 Diffusion Model、3D Casual VAE 等先进技术。该系列模型支持量化推理，能在较低算力设备上运行，且支持英语输入和长文本输入。