LTX-2 是 Lightricks 开源的首个 DiT 音视频基础模型,22B 参数实现 4K 分辨率、50fps、音频同步视频生成。支持 LoRA 微调自定义风格,可用消费级 GPU 运行,完全开源免费,对标 Runway、Sora、Pika 等闭源方案。

🎤 引言

做 AI 视频的团队最近都有点焦虑——Runway Gen-3 要钱,Sora 不开门,Pika 的免费额度根本不够用。想找个免费开源的方案,GitHub 上倒是有一堆视频扩散模型,但大多数只能生成画面,音频还得另外处理。

Lightricks 刚刚开源的 LTX-2 就是来解决这个问题的——首个 DiT 架构的音视频统一模型,22B 参数,4K + 50fps + 音画同步全部原生支持。


⭐ 核心功能

1. 首个 DiT 音视频统一模型

不是传统的 U-Net 扩散架构,LTX-2 基于 Diffusion Transformer (DiT) 构建,把视频和音频生成统一在同一个模型里。好处很明显——音画同步是模型原生能力,不是后期对着口型硬拼。视频里人物说话,声音和嘴唇动作完全对得上。

2. 4K 分辨率 + 50fps

输出规格直接看齐专业制作标准。从官方 Demo 来看,成片有电影感的镜头运动、自然的光照过渡,不像很多 AI 视频那样一看就是"AI 味"太重。

3. 多性能模式

提供两个版本:

  • ltx-2.3-22b-dev(开发版)— 质量更高但速度慢
  • ltx-2.3-22b-distilled-1.1(蒸馏版)— 经过知识蒸馏,体积更小、速度更快,消费级 GPU 也能跑

4. LoRA 生态丰富

官方出了一堆 LoRA 模型,覆盖各种控制需求:

  • IC LoRA Union Control — 角色和风格绑定控制
  • Motion Track Control — 运动轨迹控制
  • Pose Control — 人物姿态控制
  • Camera Control 系列 — 镜头运动控制(Dolly In/Out、Zoom、Jib Up/Down)
  • Detailer — 细节增强

LoRA 微调快,1 小时内能训练出自己想要的风格,这对需要统一品牌调性的内容团队很有用。

5. API + 开源可本地部署

GitHub 完全开源,支持 API 调用,不依赖任何第三方云服务。HuggingFace 上有完整权重可以下载,想本地跑就本地跑。


📥 安装与使用

环境准备

# 克隆仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# 创建虚拟环境
uv sync --frozen
source .venv/bin/activate

下载模型权重

需要从 HuggingFace LTX-2.3 仓库 下载:

  • ltx-2.3-22b-distilled-1.1.safetensors(蒸馏版,推荐)
  • ltx-2.3-spatial-upscaler-x2-1.1.safetensors(空间超分模型)
  • ltx-2.3-22b-distilled-lora-384-1.1.safetensors(蒸馏 LoRA)
  • Gemma 3 文本编码器

硬件要求

  • GPU:建议 24GB+ 显存(FP8 优化后 16GB 可跑)
  • 内存:32GB+
  • 存储:模型权重约 40GB+

快速推理示例

from diffusers import LTXVideoPipeline
import torch

pipe = LTXVideoPipeline.from_pretrained(
    "Lightricks/LTX-2.3",
    torch_dtype=torch.float16
)
pipe.to("cuda")

video = pipe(
    prompt="A cinematic shot of a sunset over the ocean",
    negative_prompt="blurry, low quality, distorted faces",
    num_frames=49,
    height=512,
    width=512,
    num_inference_steps=40
).frames[0]

🎯 适用场景

适合用 LTX-2 的人:

  1. 独立开发者和创作者 — 不想付 Runway/Pika 订阅费,想要自己的 AI 视频工作流
  2. AI 视频研究 — DiT 架构的音视频统一模型,适合学术研究和二次开发
  3. 需要本地部署的团队 — 数据隐私要求高,不能把素材传给第三方 API
  4. 风格化视频生产 — LoRA 生态丰富,可以训练自己的风格/角色模型

⚠️ 注意事项

  1. 显卡门槛不低 — 22B 参数,完整模型 40GB+,低配机器跑起来会非常痛苦。有人说在 4090 上能跑但速度很慢,24GB 显存是建议起点
  2. 生成速度仍偏慢 — 跟所有 Diffusion 模型一样,生成一段几秒的视频需要几十秒到几分钟不等,跟 Runway 的实时预览体验还有差距
  3. 蒸馏版有质量取舍 — 蒸馏加速了但质量会有损失,重要项目还是建议用 dev 版
  4. 音频生成效果待验证 — 官方 Demo 看着不错,但实际复杂场景下音频质量是否稳定还需要更多人测试
  5. 项目较新 — GitHub Stars 才 7k,文档和社区支持不如老牌开源项目完善,遇到问题可能得自己看源码

✅ 总结

LTX-2 最有价值的地方在于它是真正开源的 DiT 音视频统一模型。Lightricks 愿意把 22B 参数的大模型开源,这本身就给整个 AI 视频开源社区打了一针强心剂。

对于有高端显卡、想本地部署 AI 视频工作流的团队和个人开发者,这绝对值得一试。跑一个 Demo 感受一下它的音画同步效果,比看任何评测文章都直观。

推荐指数:⭐⭐⭐⭐(扣一星在硬件门槛和项目较新)

官网https://ltx.io
HuggingFacehttps://huggingface.co/Lightricks/LTX-2.3
GitHubhttps://github.com/Lightricks/LTX-2