视频生成模型百花齐放：腾讯混元正式入局，但行业仍处于早期-刘枫的专栏

视频生成模型百花齐放：腾讯混元正式入局，但行业仍处于早期

2024-12-03 20:29:30栏目：优秀博文 IP属地：IP未知

今年2月，OpenAI发布了视频生成模型Sora。尽管直到今天，Sora都未向公众开放使用，但它的出现，正式拉开了视频生成时代的大幕。

自Sora问世以来，视频生成模型开始百花齐放，从上半年的快手可灵、Runway Gen-3、Luma Dream Machine，到下半年的生数科技Vidu、智谱清影、字节跳动PixelDance、MiniMax海螺等，这些产品的出现，都引起了市场的广泛关注。

12月3日，腾讯混元大模型宣布上线视频生成能力，正式加入竞争激烈的视频生成赛道。腾讯的入局，不仅为市场注入了新的活力，也意味着这一技术有望在更广泛的应用场景中得到验证。

腾讯混元相关负责人向 21 世纪经济报道记者表示，混元视频生成模型支持中英文双语输入、多种视频尺寸以及多种视频清晰度，相比市面上其他视频生成模型，混元在文本视频一致性、运动质量和画面质量等方面，表现会更加出色。

值得一提的是，在发布混元视频生成模型的同时，腾讯也宣布将其开源，包含模型权重、推理代码、模型算法等完整模型，参数量为130亿，是当前最大的视频开源模型。

此前，腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此，腾讯混元系列大模型已实现全面开源。

DiT架构成为主流

在Sora的启发下，DiT（Diffusion Transformer）架构，一种基于Transformer架构的扩散模型，正成为视频生成模型采用的主流技术方案，腾讯混元视频生成模型也是基于该架构。

在业内，用于理解扩散模型最常听见的比喻，是来自意大利文艺复兴雕塑家米开朗琪罗的一句话：“塑像本来就在石头里，我只是把不需要的部分去掉。”

扩散模型的工作原理，就是去除不需要的部分。而如何判断该去掉哪些石头以及怎么去掉这些石头，这个思考框架就是“U-Net架构”和“Transformer架构”的核心区别。

扩散模型过去最常用的U-Net架构，它的思路是逐步缩小图像，然后计算图像的相似性。但是，随着模型参数量的增加，U-Net模型容易陷入性能瓶颈，并且难以灵活适配多模态任务需求。

而Transformer架构则是将一张大图切割成无数个小图片，然后通盘计算整幅图像中各个图像块之间的关联，从而计算出与目标指令最接近的图。

这种机制的优点是不会忽略图片中的任何细节，但需要更多的计算资源。所以，只要算力与数据量足够，Transformer架构就可以无限扩展，这也是为什么，DiT架构会成为文生图、生视频、生3D等多模态视觉生成的首选架构。

在DiT架构的基础上，混元视频生成模型也进行了许多升级。

比如混元视频生成模型适配最新一代大语言模型MLLM （Multimodal Large Language Model）作为文本编码器，因此具备了更强大的语义跟随能力，可以更好地应对多个主体描绘，实现更加细致的指令和画面呈现。

另外，混元视频生成模型采用了统一的全注意力（full attention）机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换。而通过先进的图像视频混合VAE（3D 变分编码器），混元让模型在细节表现有明显提升，特别是小人脸、高速镜头等场景。

视频生成尚处于早期

虽然市场上已经有许多视频生成模型，但从用户的感知来看，视频生成模型的发展进度远不及大语言模型。

腾讯研究院近期发布的一份研究报告，便指出了视频生成模型现阶段的多个不足之处。

首先是视频生成的成本过高。受底层扩散过程的制约，生成一次视频需要多步迭代才能完成，对于动辄超百亿参数的视频生成模型，这可能意味着尖端显卡数十秒甚至数分钟的运转。

数据显示，目前，Runway Gen-3 Alpha Turbo生成一条10秒的768x1280分辨率的视频价格为0.5美元，可灵AI生成一条10秒的高品质模式视频价格为7元人民币。

而同样的价格若用于大语言模型的调用，大致可以生成百万量级的token。因此，视频生成的成本远未达到人人可用的阶段。

除此之外，报告认为“模态不全，缺少声音”，以及“尚未攻克稳定的长视频”都是视频生成模型未来亟需解决的问题。

目前，绝大多数视频生成模型仅支持生成5-10秒的视频，混元视频生成模型的最大长度也是5秒。大家都不做长视频的生成，一方面有算力成本的考虑，但另一方面，也是受到训练数据的掣肘。

腾讯研究院认为，网络公开视频和版权影视作品基本都是经原始拍摄素材剪辑而来，成片中单镜头时长往往也就3秒左右，远不足以让视频模型充分观察到物体的长期运动，更不要说底层物理规律的学习。

当然，这些问题也是整个行业在努力改善的方向。腾讯混元相关负责人向记者透露，混元视频生成模型很快会进行迭代，推出包括视频配音以及图生视频等在内的能力。

而长期看来，随着技术的迭代、训练数据的丰富以及模型开源化带来的生态效应，视频生成模型也将逐步成熟。当AI能够创作出更加复杂且细腻的视频内容时，相信很多行业也将因此迎来变革。

来源: 21世纪经济报道