据报道,在对 AI 视频生成的兴趣最初爆炸式增长仅一年后,竞争格局正在发生重大转变。重点正在从简单地实现视频生成功能转变为展示盈利能力的关键挑战。这种演变似乎正在侵蚀 OpenAI 的 Sora 曾经看似无懈可击的主导地位,因为自 2024 年以来的一波新进入者都在争夺这个蓬勃发展的市场中的一杯羹。
AI 视频生成是否正在进行 “蛋糕分享” 阶段?
OpenAI 的 Sora 于 2024 年 2 月推出,在 AI 视频生成领域引发了狂潮。中国和其他地方的国内初创公司和大型科技公司迅速加入竞争。其中许多新型号和产品在视频长度、质量和效率方面很快就接近了,在某些情况下甚至超过了 Sora,这导致了对其持续主导地位的质疑。
根据 a16z 最近的 100 大 AI 应用榜单,AI 视频生成工具在过去六个月中在质量和可控性方面取得了长足的进步。值得注意的是,该报告表明,与其他更受炒作的生成式 AI 产品相比,这些工具具有更高的用户货币化潜力。
a16z 分析进一步表明,最受欢迎的应用程序不一定会产生最多的收入。据报道,专注于图像/视频编辑、视觉增强、“类似 ChatGPT”的模仿和图像/视频生成的工具获得了更高的收入,尽管用例可能更窄。
有趣的是,三个 AI 视频生成应用程序——HailuoAI、Kling 和 Sora——在 a16z 列表的基于网络的版本中首次亮相。截至 2025 年 1 月的数据显示,Hailuo 和 Kling 的用户流量均已超过Sora。
这些 AI 视频生成工具采用的货币化策略在很大程度上相似,包括现收现付模式、订阅服务、具有高级功能的免费基本版本、企业定制以及这些方法的组合。
转向优先考虑盈利能力的一个潜在转折点是 OpenAI 最近在 2025 年 3 月下旬对 Sora 的定价策略进行了调整。该公司取消了付费用户的信用额度,允许 Plus 和 Pro 订阅者生成无限数量的视频。然而,这一变化并未引起用户的普遍共鸣。
据报道,X 和 Reddit 等平台上的许多用户表示,尽管取消了信用限制,但他们并不倾向于使用 Sora。许多人表示,他们更喜欢像 Google 的 Veo 2 或开源的 Wan2.1 这样被认为更高级的替代品。一些用户还指出,OpenAI 决定提高信用额度可能是由于缺乏用户采用率,并对调整后的 Sora 仍然不是一个完整的最终产品表示失望。这种情绪与 Sora 于 2024 年 12 月首次发布后的早期批评相呼应,据报道,它收到了关于其视频生成质量的负面反馈。
在这个不断发展的环境中,当用户讨论他们更愿意使用或付费的视频生成模式和产品时,Meta 的 Emu、Google 的 Veo 2、阿里巴巴的 Wan 2.1 和快手的 Kling 1.6 等名字经常被提及。据报道,这些模型在生成质量和视频长度能力方面正在赶上并在某些方面超越 Sora。
AI 视频生成播放器如何通过他们的产品获利
随着 AI 视频生成的热潮,早期进入者现在正在利用其产品的独特优势和功能来吸引付费用户,包括个人创作者、广告工作室、电子商务博主和影视行业的专业人士。
虽然 OpenAI 的 Sora 最初是生成高清 60 秒视频的领导者,但这不再是一个独特的优势。一些竞争对手在视频长度、清晰度和视觉质量方面已经达到甚至超过了 Sora。Sora 的定价页面表明 Plus 用户可以生成 10 秒的视频,而 Pro 用户可以生成 20 秒的视频(有扩展的可能性)。相比之下,Luma 的 Ray2 和 Vidu 等较新的型号可以生成一分钟的高清视频,快手的 Kling 1.6 可以生成 5 秒或 10 秒的剪辑,最长可延长至两分钟。
在功能上,流行的视频生成模型和产品目前提供文本到视频、图像到视频、实时视频编辑和自动添加音效等功能。此外,许多公司正在根据特定的应用程序需求在其更新中加入新功能。
除了视频长度和分辨率等基本功能外,AI 视频生成的持续迭代还专注于电影和广告等行业的关键方面,包括精确的文本控制、一致的角色描绘、风格定制,甚至对不同摄像机角度和视角的控制。
一些公司还专注于增强其产品的可扩展性和适应性,以适应不同规模和复杂性的视频项目,支持不同的视频格式和分辨率,并与其他工具和平台集成以满足更广泛的应用场景。
为了增加收入,一些公司还采用技术策略来降低与其视频生成模型相关的开发和计算成本,从而提高利润率。这包括改进模型架构和采用更高效的算法来提高运营效率并减少视频生成过程中的计算资源消耗。例如,据报道,腾讯的 Hunyuan Video 模型通过扩展技术将计算消耗减少了 80%。此外,来自北京大学快手分校和北京邮电大学的研究团队提出了金字塔流匹配方法,通过在训练期间对嵌入进行下采样和逐步上采样来减少训练视频生成器所需的处理,从而降低计算成本。此外,Colossal-AI 最近开源的 Open-Sora 2.0 声称可以通过 200,000 美元(使用 224 个 GPU)训练的 11B 参数模型实现商业级性能,可与 HunyuanVideo 和 30B 参数 Step-Video 等模型相媲美。
视频生成模型需要改进的领域
国内外初创公司、独角兽和互联网巨头出现的模型和产品已经影响了广告和娱乐等行业的内容创作者。虽然一些产品开始为公司创造收入,但当前的视频生成模式仍然面临重大限制。
Colossal-AI 创始人 You Yang 近日分享了他对视频生成模型未来发展的看法,强调了对精确文本控制、任意摄像机角度、一致角色刻画和风格定制等能力的需求。他指出,虽然当前的文本到图像应用程序缺乏完全精确的控制,但未来的视频生成模型在将文本描述准确转换为视频形式方面具有巨大潜力。他还强调了 AI 视频大型模型的重要性,它能够自由调整摄像机角度和位置,类似于真实世界的拍摄,并在不同的镜头和场景中保持一致的角色外观,这对于广告和电影制作至关重要。
鉴于不断改进的需求,来自公司和大学的研究人员不断探索和提出新方法。来自清华大学和腾讯的研究人员最近提出了“Video-T1”,受到 Test-Time Scaling 在 LLM 中应用的启发,探索了它在视频生成模型中的潜力。他们的工作将视频生成中的测试时间缩放作为从高斯噪声空间到目标视频分布的轨迹搜索问题,并引入了随机线性搜索作为基本实现。通过随机采样多个视频生成并使用 VLM 进行评分,选择最佳样本作为输出。他们还提出了帧树 (ToF) 方法,该方法自适应地扩展和修剪视频分支,以动态平衡计算成本和生成质量,从而提高搜索速度和视频质量。ToF 使用测试时验证器来评估中间结果,并采用启发式方法来有效地导航搜索空间,在视频生成过程中的适当时间点进行评估,以选择有前途的生成轨迹,从而提高效率和质量。研究人员观察到,第一帧会显著影响整体视频对齐,并且视频的不同部分(开头、中间、结尾)具有不同的提示对齐需求。为了解决这个问题,他们利用 chain-of-thought 来生成单帧图像和分层提示,以增强帧生成和提示对齐,从而构建整个帧树流程。使用 ToF 训练的 Video-T1 模型在 VBench 基准测试中取得了 5.86% 的最高分增长,模型能力随着推理过程中选择的样本数量而增加,展示了持续的扩展潜力。
来自快手科技和香港中文大学的研究人员于 2025 年 3 月提出了 FullDiT 方法,该方法将多任务条件(如身份转移、深度映射和摄像机运动)集成到经过训练的视频生成模型中,使用户能够对视频生成过程进行更精细的控制。FullDiT 将类似 ControlNet 的机制直接集成到视频生成模型的训练中,将多任务条件统一到一个经过训练的模型中。它采用统一的注意力机制来捕获不同条件下的时空关系,将所有条件输入(文本、相机运动、身份和深度)转换为统一的 Token 格式,并通过一系列 Transformer 层进行完全自注意的处理。FullDiT 的训练依赖于针对每种条件类型的定制标记数据集,并使用渐进式训练过程,在训练的早期引入更具挑战性的条件。测试表明,FullDiT 在与文本、摄像机运动、身份和深度控制相关的指标上取得了最先进的性能,在整体质量指标上通常优于其他方法,尽管其平滑度略低于 ConceptMaster。
这种充满活力的环境突显了 AI 视频生成领域的激烈竞争和快速创新,因为参与者越来越专注于建立可持续和盈利的业务,同时继续突破视频生成技术的界限。
发表评论 取消回复