火宝短剧 Huobao Drama 是 AI 一站式短剧生成平台,「一句话生成完整短剧」,从剧本解析、角色/分镜生成、图生视频合成剪辑全流程自动化。基于 Go + Vue3 全栈架构,支持 275+ commits 持续迭代,跨平台开源免费,1.2w Star 爆款。

🎤 引言

刷抖音/快手的时候,你大概率看过那种"AI 生成"的短剧——一个人设的虚拟角色在几个场景里演完整段剧情,运镜、配乐、台词一气呵成,肉眼根本看不出是 AI 做的。

你可能也想过:「我也想搞一个」——但现实是:

  • 剧本要自己写
  • 角色形象要保持一致(传统工具换一帧就崩)
  • 分镜要拆好镜头
  • 图片要画(每个镜头一张)
  • 视频要合成(图片动起来 + 配音 + 字幕)
  • 剪辑要串起来

这套流程下来,专业团队要几周、个人玩家几个月都不一定搞得定

火宝短剧 Huobao Drama——这个 1.2w Star 的开源项目——把上述全流程一锅端

"一句话生成完整短剧,从剧本到成片全自动化"

基于 Go + Vue3 全栈架构,从剧本解析 → 角色/分镜生成 → 图生视频合成剪辑全自动跑完。你只需要:给个剧本创意 + 选个角色 → 点「生成」→ 等几分钟 → 拿到完整短片

这不是又一个"调用几个 API 的小工具",而是一个真正可落地的 AI 短剧生产线


⭐ 核心功能

🎬 端到端自动化流程

火宝短剧最大的杀手锏是一站式全流程自动化——传统 AI 视频工具只做"图生视频"或"文生视频"单一环节,剩下都要人工串。火宝短剧把整个流水线都做了:

输入: 一段剧本创意
   ↓
[剧本解析] — NLP 拆角色、场景、动作
   ↓
[角色管理] — 一致性形象生成(保持同一人设)
   ↓
[分镜制作] — 镜头脚本 + 镜头图片
   ↓
[视频生成] — 图生视频 + AI 配音
   ↓
[合成剪辑] — 串镜头 + 配乐 + 字幕
   ↓
输出: 完整短剧成片

🎨 角色一致性管理

AI 短剧最大的痛点是角色一致性——传统工具换一帧,主角的脸/服装/发型就变了,看着像 5 个不同的人在演。

火宝短剧的角色管理模块专门解决这个问题:

  • 上传/AI 生成角色参考图
  • 角色档案库(姓名、外形、性格、台词风格)
  • 多镜头复用同一角色 → 一致性 90%+

这是从"AI 玩具"到"AI 短剧"的关键分水岭。

📝 分镜制作(脚本 / 镜头 / 图片)

火宝短剧把导演思维内置到分镜模块:

  • 脚本 — 镜头描述、台词、动作、配音提示
  • 镜头 — 景别(远/中/近/特写)、机位、运镜
  • 图片 — 每个镜头一张静态图(AI 生成)

导演不需要从零想分镜,AI 自动根据剧本拆——你只审核修改。

🎥 图生视频 + 合成剪辑

镜头图片生成后,进入视频生成阶段:

  • 图生视频 — 静态图变 3-5 秒动态镜头(可换 AI 模型:可灵/Runway/Pika/智谱 CogVideoX)
  • AI 配音 — 角色台词自动 TTS(多语种、多音色)
  • 背景音乐 — 自动匹配情绪
  • 字幕生成 — 自动字幕 + 时间轴对齐
  • 合成剪辑 — 串镜头、加转场、压片输出

📊 资源管理与任务追踪

不像"一次性跑完"的脚本工具,火宝短剧有完整的后台管理

  • 角色库 — 所有角色档案统一管理
  • 剧本库 — 多剧本/分集
  • 任务队列 — 长任务排队(视频生成慢)
  • 历史成片 — 之前生成的短剧可二次编辑
  • 资源统计 — 用了多少 API、生成多少分钟

🛠️ 技术架构

  • 后端: Go 1.23+ / Gin / GORM / SQLite (modernc.org/sqlite) / Zap / Viper
  • 前端: Vue 3.4+ / TypeScript
  • 部署: Docker 一键启动
  • 数据: SQLite 单文件(够轻量,迁移方便)

💎 适合人群

  • 自媒体 / 内容创作者 — 想批量生产短剧内容
  • 营销 / 品牌 — 制作产品宣传短剧
  • 教育 / 培训 — 把课件转成短剧
  • AI 工具爱好者 — 体验"一句话生成视频"
  • 独立开发者 — 想做短剧相关产品的 MVP
  • 编剧 / 作家 — 把小说片段可视化

📥 安装与使用

🐳 方案 1:Docker(推荐)

# 克隆仓库
git clone https://github.com/chatfire-AI/huobao-drama.git
cd huobao-drama

# 启动
docker compose up -d

# 访问
# 浏览器打开 http://localhost:8080

🖥️ 方案 2:本地源码运行

后端(Go 1.23+)

cd backend
go mod tidy
go run main.go

前端(Vue 3 + TypeScript)

cd frontend
npm install
npm run dev
# 开发服务器默认 http://localhost:5173

⚙️ 首次配置

启动后访问 http://localhost:8080

  1. API 配置 — 填入 AI 服务商 API Key:

    • 剧本生成: OpenAI / Claude / DeepSeek / GLM-4
    • 图生视频: 可灵 / Runway / Pika / 智谱 CogVideoX
    • TTS 配音: 火山引擎 / 阿里云 / ElevenLabs
    • 图像生成: Midjourney / Stable Diffusion / DALL-E 3
  2. 角色库 — 创建第一个角色(上传参考图 + 填档案)
  3. 新建剧本 — 输入创意或上传完整剧本
  4. 点「一键生成」 — 等几十分钟(看视频长度 + API 速度)

🎬 实战:5 分钟搞定一个 1 分钟短剧

1. 后台 → 角色管理 → 新建角色 "李小白"(上传一张参考图)
2. 剧本库 → 新建剧本 → 填创意:
   "都市言情短剧:女主林夏在咖啡馆偶遇男主陆寒,误会他是跟踪狂,
   实际上是来谈合作的客户,最后两人冰释前嫌。"
3. 点「AI 拆解」 → 自动生成 8 个镜头分镜
4. 审核/修改分镜(景别、台词、动作)
5. 点「一键生成」 → 后台跑任务
6. 30 分钟后 → 1 分钟短剧成片(含配音+字幕+BGM)
7. 下载 .mp4 → 传到抖音/快手

🎯 适用场景

✅ 强烈推荐

  • 短视频自媒体 — 抖音/快手/视频号批量生产 AI 短剧
  • 品牌营销 — 快速生成产品宣传短片
  • 网文 IP 改编 — 把小说片段转成短剧引流
  • 教育内容 — 把枯燥的知识点变短剧
  • 企业内部培训 — 剧本化教学视频
  • AI 视频创业者 — MVP 验证

❌ 不太适合

  • 电影/电视剧级别 — 1 分钟短剧没问题,10 分钟以上仍然吃力
  • 真人出演需求 — 这是 AI 生成,不是真人
  • 需要严格 IP 审核 — 商用前确认 AI 生成内容合规
  • 离线无显卡 — 图生视频必须调用云端 API(费用)
  • 追求电影级画质 — 当前 AI 模型上限决定质量

🔍 对比/替代方案

vs Sora / Runway / Pika(纯图生视频工具)

维度火宝短剧Sora / Runway / Pika
端到端✅ 剧本→成片全流程❌ 单一环节
角色一致性✅ 内置管理❌ 换帧崩
分镜✅ 自动拆❌ 手动
配音字幕✅ 自动❌ 单独工具
剪辑合成✅ 内置❌ 单独工具
学习曲线中(上手配置)低(直接生成)
单镜质量受限于接入的 AI✅ 当前最强(自家模型)
成本多 API 累加单一 API

结论:要做"完整短剧"选火宝短剧;只要"单镜头生成"选 Sora/Runway。

vs Coze / 字节扣子(AI Agent 工作流)

维度火宝短剧Coze
端到端✅ 专为短剧⚠️ 需自己拼
内置节点✅ 短剧专用❌ 通用
二次开发✅ 开源自托管❌ 闭源
上手成本

结论:要"短剧专用工具"选火宝;想"自己拼各种 AI 能力"选 Coze。

vs 传统剪辑软件(剪映 / Premiere)

维度火宝短剧剪映 / PR
自动生成✅ AI 全自动❌ 手动剪辑
角色生成✅ AI 一致性❌ 需实拍/手画
配音✅ AI TTS⚠️ 配 TTS 也行但要单独
学习曲线高(PR) / 低(剪映)
创意控制⚠️ AI 主导✅ 100% 人工
单条成本API 费用(几分到几元)0(人工时间)

结论:要"批量化、低成本"选火宝;要"精细创意、独特风格"选传统剪辑。

vs 真人拍摄

维度火宝短剧真人拍摄
成本¥几元/分钟¥几百-几千/分钟
周期30 分钟几天-几周
演员不需要需要
场地不需要需要
真实感⚠️ AI 痕迹✅ 100% 真实
可控性中(AI 抽卡)

结论:要"低成本量产"选火宝;要"高质量、真实感"选真人。


⚠️ 注意事项

💰 API 成本

火宝短剧本身免费开源,但生成内容要调用 AI API(多服务累加):

API 用途典型服务单条短剧(1 分钟)成本
剧本 + 角色DeepSeek¥0.05-0.2
角色参考图SD / DALL-E¥0.1-0.5
分镜图片同上¥0.5-2(8 张图)
图生视频可灵/Runway¥2-8(8 个 3-5s 镜头)
配音 TTS火山/阿里¥0.1-0.5
合计-约 ¥3-12 / 1 分钟

对比

  • 真人拍摄 1 分钟:¥500-5000
  • AI 短剧便宜 50-1000 倍

🎭 角色一致性仍不完美

虽然火宝短剧有角色管理模块,但实际生成时:

  • 侧脸/远景 容易崩
  • 同框多人 容易混淆
  • 表情变化 偶尔失真

应对

  • 多生成几次,选最好的
  • 参考图选正面 + 简洁(避免复杂背景)
  • 同框分多镜拍摄(避开多人同框)

📜 商用合规

AI 生成内容商用前需注意:

  • 平台规则 — 抖音/快手对 AI 内容有标识要求
  • 版权 — 角色形象/参考图别用真人/版权 IP
  • 内容审核 — 涉政/涉黄/暴恐/广告法敏感词一律不要
  • AI 标识 — 部分国家/地区要求显著标注"AI 生成"

🐛 已知问题

按社区反馈:

  • 首次部署学习曲线(要配 4-5 个 API Key)
  • 生成速度受 API 限制(视频生成比图片慢得多)
  • 长视频分镜累积质量下降(10+ 镜头的短剧后半段会崩坏)
  • 多语言支持有限(中文最佳,英文 OK,小语种看 TTS 支持)
  • 部分 AI 视频模型需海外 API(国内访问需代理)

💻 硬件需求

火宝短剧本身不重(Go 后端 + Vue 前端,普通 VPS 即可):

  • 最低: 2 核 4GB VPS
  • 推荐: 4 核 8GB + 50GB SSD
  • 数据库: SQLite(单文件,免维护)
  • 网络: 需要稳定访问 AI API(境外服务要代理)

GPU 不是必须——所有 AI 生成都走云端 API。


✅ 总结

火宝短剧是一个真正能用的 AI 短剧生产线——不是"玩具"、不是"PPT 项目",而是从剧本到成片真能跑通的端到端平台。

核心优势

  • ✅ 端到端自动化(剧本 → 角色 → 分镜 → 视频 → 合成)
  • ✅ 角色一致性管理(AI 短剧最大痛点之一)
  • ✅ Go + Vue3 全栈,1.2w Star 爆款
  • ✅ 灵活接入多家 AI(OpenAI/Claude/DeepSeek/可灵/Runway)
  • ✅ Docker 一键启动,跨平台开源
  • ✅ 单条成本 ¥3-12(比真人拍摄便宜 100 倍)

核心劣势

  • ❌ 生成质量受限于所选 AI 模型
  • ❌ 角色一致性仍未达 100%
  • ❌ 多 API 累加成本(虽然便宜)
  • ❌ 商用合规需自查

推荐指数:⭐⭐⭐⭐(4/5)

推荐人群:短视频自媒体、营销/品牌团队、AI 视频创业者、教育内容创作者。

不推荐人群:电影级制作(仍需真人)、追求 100% 角色一致(当前 AI 极限)、无任何 API 预算(最低也要 ¥3/条)。

结论:如果你正在做"AI 短剧"相关项目,火宝短剧是目前最完整的开源方案——比"自己拼 Coze 工作流"省 90% 的事,比"纯 Sora 单镜头"多了完整流程。1.2w Star 已经证明这条路可行。

仓库地址github.com/chatfire-AI/huobao-drama
下载页面github.com/chatfire-AI/huobao-drama/releases