🎬 LTX-2：Lightricks开源音视频生成模型 22B参数原生4K音画同步

LTX-2 是 Lightricks 开源的首个 DiT 音视频基础模型，22B 参数实现 4K 分辨率、50fps、音频同步视频生成。支持 LoRA 微调自定义风格，可用消费级 GPU 运行，完全开源免费，对标 Runway、Sora、Pika 等闭源方案。

🎤 引言

做 AI 视频的团队最近都有点焦虑——Runway Gen-3 要钱，Sora 不开门，Pika 的免费额度根本不够用。想找个免费开源的方案，GitHub 上倒是有一堆视频扩散模型，但大多数只能生成画面，音频还得另外处理。

Lightricks 刚刚开源的 LTX-2 就是来解决这个问题的——首个 DiT 架构的音视频统一模型，22B 参数，4K + 50fps + 音画同步全部原生支持。

⭐ 核心功能

1. 首个 DiT 音视频统一模型

不是传统的 U-Net 扩散架构，LTX-2 基于 Diffusion Transformer (DiT) 构建，把视频和音频生成统一在同一个模型里。好处很明显——音画同步是模型原生能力，不是后期对着口型硬拼。视频里人物说话，声音和嘴唇动作完全对得上。

2. 4K 分辨率 + 50fps

输出规格直接看齐专业制作标准。从官方 Demo 来看，成片有电影感的镜头运动、自然的光照过渡，不像很多 AI 视频那样一看就是"AI 味"太重。

3. 多性能模式

提供两个版本：

ltx-2.3-22b-dev（开发版）— 质量更高但速度慢
ltx-2.3-22b-distilled-1.1（蒸馏版）— 经过知识蒸馏，体积更小、速度更快，消费级 GPU 也能跑

4. LoRA 生态丰富

官方出了一堆 LoRA 模型，覆盖各种控制需求：

IC LoRA Union Control — 角色和风格绑定控制
Motion Track Control — 运动轨迹控制
Pose Control — 人物姿态控制
Camera Control 系列 — 镜头运动控制（Dolly In/Out、Zoom、Jib Up/Down）
Detailer — 细节增强

LoRA 微调快，1 小时内能训练出自己想要的风格，这对需要统一品牌调性的内容团队很有用。

5. API + 开源可本地部署

GitHub 完全开源，支持 API 调用，不依赖任何第三方云服务。HuggingFace 上有完整权重可以下载，想本地跑就本地跑。

📥 安装与使用

环境准备

# 克隆仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# 创建虚拟环境
uv sync --frozen
source .venv/bin/activate

下载模型权重

需要从 HuggingFace LTX-2.3 仓库下载：

ltx-2.3-22b-distilled-1.1.safetensors（蒸馏版，推荐）
ltx-2.3-spatial-upscaler-x2-1.1.safetensors（空间超分模型）
ltx-2.3-22b-distilled-lora-384-1.1.safetensors（蒸馏 LoRA）
Gemma 3 文本编码器

硬件要求

GPU：建议 24GB+ 显存（FP8 优化后 16GB 可跑）
内存：32GB+
存储：模型权重约 40GB+

快速推理示例

from diffusers import LTXVideoPipeline
import torch

pipe = LTXVideoPipeline.from_pretrained(
    "Lightricks/LTX-2.3",
    torch_dtype=torch.float16
)
pipe.to("cuda")

video = pipe(
    prompt="A cinematic shot of a sunset over the ocean",
    negative_prompt="blurry, low quality, distorted faces",
    num_frames=49,
    height=512,
    width=512,
    num_inference_steps=40
).frames[0]

🎯 适用场景

适合用 LTX-2 的人：

独立开发者和创作者 — 不想付 Runway/Pika 订阅费，想要自己的 AI 视频工作流
AI 视频研究 — DiT 架构的音视频统一模型，适合学术研究和二次开发
需要本地部署的团队 — 数据隐私要求高，不能把素材传给第三方 API
风格化视频生产 — LoRA 生态丰富，可以训练自己的风格/角色模型

⚠️ 注意事项

显卡门槛不低 — 22B 参数，完整模型 40GB+，低配机器跑起来会非常痛苦。有人说在 4090 上能跑但速度很慢，24GB 显存是建议起点
生成速度仍偏慢 — 跟所有 Diffusion 模型一样，生成一段几秒的视频需要几十秒到几分钟不等，跟 Runway 的实时预览体验还有差距
蒸馏版有质量取舍 — 蒸馏加速了但质量会有损失，重要项目还是建议用 dev 版
音频生成效果待验证 — 官方 Demo 看着不错，但实际复杂场景下音频质量是否稳定还需要更多人测试
项目较新 — GitHub Stars 才 7k，文档和社区支持不如老牌开源项目完善，遇到问题可能得自己看源码

✅ 总结

LTX-2 最有价值的地方在于它是真正开源的 DiT 音视频统一模型。Lightricks 愿意把 22B 参数的大模型开源，这本身就给整个 AI 视频开源社区打了一针强心剂。

对于有高端显卡、想本地部署 AI 视频工作流的团队和个人开发者，这绝对值得一试。跑一个 Demo 感受一下它的音画同步效果，比看任何评测文章都直观。

推荐指数：⭐⭐⭐⭐（扣一星在硬件门槛和项目较新）

官网：https://ltx.io
HuggingFace：https://huggingface.co/Lightricks/LTX-2.3
GitHub：https://github.com/Lightricks/LTX-2