LTX-2 是 Lightricks 开源的首个 DiT 音视频基础模型,22B 参数实现 4K 分辨率、50fps、音频同步视频生成。支持 LoRA 微调自定义风格,可用消费级 GPU 运行,完全开源免费,对标 Runway、Sora、Pika 等闭源方案。
🎤 引言
做 AI 视频的团队最近都有点焦虑——Runway Gen-3 要钱,Sora 不开门,Pika 的免费额度根本不够用。想找个免费开源的方案,GitHub 上倒是有一堆视频扩散模型,但大多数只能生成画面,音频还得另外处理。
Lightricks 刚刚开源的 LTX-2 就是来解决这个问题的——首个 DiT 架构的音视频统一模型,22B 参数,4K + 50fps + 音画同步全部原生支持。
⭐ 核心功能
1. 首个 DiT 音视频统一模型
不是传统的 U-Net 扩散架构,LTX-2 基于 Diffusion Transformer (DiT) 构建,把视频和音频生成统一在同一个模型里。好处很明显——音画同步是模型原生能力,不是后期对着口型硬拼。视频里人物说话,声音和嘴唇动作完全对得上。
2. 4K 分辨率 + 50fps
输出规格直接看齐专业制作标准。从官方 Demo 来看,成片有电影感的镜头运动、自然的光照过渡,不像很多 AI 视频那样一看就是"AI 味"太重。
3. 多性能模式
提供两个版本:
ltx-2.3-22b-dev(开发版)— 质量更高但速度慢ltx-2.3-22b-distilled-1.1(蒸馏版)— 经过知识蒸馏,体积更小、速度更快,消费级 GPU 也能跑
4. LoRA 生态丰富
官方出了一堆 LoRA 模型,覆盖各种控制需求:
- IC LoRA Union Control — 角色和风格绑定控制
- Motion Track Control — 运动轨迹控制
- Pose Control — 人物姿态控制
- Camera Control 系列 — 镜头运动控制(Dolly In/Out、Zoom、Jib Up/Down)
- Detailer — 细节增强
LoRA 微调快,1 小时内能训练出自己想要的风格,这对需要统一品牌调性的内容团队很有用。
5. API + 开源可本地部署
GitHub 完全开源,支持 API 调用,不依赖任何第三方云服务。HuggingFace 上有完整权重可以下载,想本地跑就本地跑。
📥 安装与使用
环境准备
# 克隆仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
# 创建虚拟环境
uv sync --frozen
source .venv/bin/activate下载模型权重
需要从 HuggingFace LTX-2.3 仓库 下载:
ltx-2.3-22b-distilled-1.1.safetensors(蒸馏版,推荐)ltx-2.3-spatial-upscaler-x2-1.1.safetensors(空间超分模型)ltx-2.3-22b-distilled-lora-384-1.1.safetensors(蒸馏 LoRA)- Gemma 3 文本编码器
硬件要求
- GPU:建议 24GB+ 显存(FP8 优化后 16GB 可跑)
- 内存:32GB+
- 存储:模型权重约 40GB+
快速推理示例
from diffusers import LTXVideoPipeline
import torch
pipe = LTXVideoPipeline.from_pretrained(
"Lightricks/LTX-2.3",
torch_dtype=torch.float16
)
pipe.to("cuda")
video = pipe(
prompt="A cinematic shot of a sunset over the ocean",
negative_prompt="blurry, low quality, distorted faces",
num_frames=49,
height=512,
width=512,
num_inference_steps=40
).frames[0]🎯 适用场景
适合用 LTX-2 的人:
- 独立开发者和创作者 — 不想付 Runway/Pika 订阅费,想要自己的 AI 视频工作流
- AI 视频研究 — DiT 架构的音视频统一模型,适合学术研究和二次开发
- 需要本地部署的团队 — 数据隐私要求高,不能把素材传给第三方 API
- 风格化视频生产 — LoRA 生态丰富,可以训练自己的风格/角色模型
⚠️ 注意事项
- 显卡门槛不低 — 22B 参数,完整模型 40GB+,低配机器跑起来会非常痛苦。有人说在 4090 上能跑但速度很慢,24GB 显存是建议起点
- 生成速度仍偏慢 — 跟所有 Diffusion 模型一样,生成一段几秒的视频需要几十秒到几分钟不等,跟 Runway 的实时预览体验还有差距
- 蒸馏版有质量取舍 — 蒸馏加速了但质量会有损失,重要项目还是建议用 dev 版
- 音频生成效果待验证 — 官方 Demo 看着不错,但实际复杂场景下音频质量是否稳定还需要更多人测试
- 项目较新 — GitHub Stars 才 7k,文档和社区支持不如老牌开源项目完善,遇到问题可能得自己看源码
✅ 总结
LTX-2 最有价值的地方在于它是真正开源的 DiT 音视频统一模型。Lightricks 愿意把 22B 参数的大模型开源,这本身就给整个 AI 视频开源社区打了一针强心剂。
对于有高端显卡、想本地部署 AI 视频工作流的团队和个人开发者,这绝对值得一试。跑一个 Demo 感受一下它的音画同步效果,比看任何评测文章都直观。
推荐指数:⭐⭐⭐⭐(扣一星在硬件门槛和项目较新)
官网:https://ltx.io
HuggingFace:https://huggingface.co/Lightricks/LTX-2.3
GitHub:https://github.com/Lightricks/LTX-2