🎬 video-use：AI代理视频编辑器让Claude Code自动剪辑

video-use 是浏览器自动化明星团队 browser-use 的开源力作，让你用 Claude Code 等编码代理直接剪辑视频。自动剪掉废话和空白、智能调色、生成字幕和动画叠加层，全程无需打开任何专业剪辑软件，纯命令行操作，开源免费，文末附详细使用教程

🎤 引言

你有没有遇到过这种情况：录了一堆素材，想剪成一条像样的视频，结果光是导入素材就劝退了大半热情。Pr 打开要等五分钟，Final Cut 订阅费一年一两千，达芬奇操作门槛高得离谱。

但你电脑上早装了一个比任何剪辑师都听话的工具——编码代理。

browser-use 团队带来了他们的新项目 video-use，思路很野：把视频剪辑完全交给 Claude Code 这类编码代理，你只需要丢一包原始素材到文件夹，然后在命令行里说一声「帮我剪成成品」，剩下的交给 AI。

项目上线两个月飙到 12.4K Stars，MIT 协议全开源。不做 UI、没有菜单、看不到预览窗口——但能剪出带转场、字幕、动画叠加和调色的成品视频。

⭐ 核心功能

video-use 的核心逻辑和 browser-use 一脉相承：AI 代理不需要「看」视频，而是「读」视频。

自动去除废话和空白。 录音里最常见的 "emmm……" "you know……" 和句子之间的尴尬停顿，在转录阶段就被标记出来。AI 代理拿到的是带时间戳的文字转录，看一眼就知道哪句该剪、哪句该留，跟改一篇 Word 文档一样自然。

智能调色。 不需要折腾 lut 和色轮，video-use 内置了 warm cinematic、neutral punch 等多种调色方案，底层是高自由度的 ffmpeg 链。你可以在 prompt 里说「给我剪成暖色调科技风」，它会自动应用到每一个片段。

字幕生成与样式定制。 默认每两个字一组大写英文叠加在画面底部，全部可自定义。不需要手动对轴，AI 代理根据转录和剪辑决策统一切割边界，自动生成字幕文件。

动画叠加层。 这是最惊艳的部分——video-use 通过 HyperFrames、Remotion、Manim 或 PIL 四个引擎来生成动画覆盖物。每个动画由独立的并行子代理生成，做完后拼接到最终视频中。你可以在 prompt 里要求「在画面右上角加一个数据增长动画」，AI 会调用 Remotion 生成对应 SVGs。

自评估循环。 每次渲染完成后，video-use 会在每个剪辑边界调用 timeline_view 检查视觉跳变、音频爆音和字幕遮挡。最多自愈重试三次，只有通过自检的版本才会呈现在你面前。

📥 安装使用

安装 video-use 非常简单，不需要懂剪辑软件。两步走：

# 第一步：克隆项目并链接到编码代理的技能目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use   # Claude Code
# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use  # Codex

# 第二步：安装依赖
cd ~/Developer/video-use
uv sync                         # 或用 pip install -e .
brew install ffmpeg             # 必须
brew install yt-dlp             # 可选，用于下载在线素材

最后把 ElevenLabs API Key 写入 .env 文件——到 elevenlabs.io/app/settings/api-keys 免费领一个就行。

之后每次想剪视频，打开 Claude Code（或 Codex、Hermes 等任意支持 shell 的编码代理），把 prompt 设成项目提供的 setup 文本，然后告诉它「帮我把这个文件夹里的素材剪成短视频」——AI 会先列出剪辑策略等确认，然后自动开始干活，所有输出放在 edit/ 目录下。

项目地址：GitHub: browser-use/video-use

🎯 适用场景

内容创作者。 如果你日常产出口播类视频、教程或 Vlog，video-use 能帮你省掉 80% 的粗剪时间。以前录一小时的素材剪二十分钟的成品要半天，现在丢进去让 AI 处理，回头收成品。

开发者的项目演示。 做开源项目的不可能专门学剪辑——录好本地演示、写一段 prompt、收工。适合快速产出 GitHub 项目演示视频。

播客剪辑。 多人对话类内容，video-use 有 speaker diarization 能力，能区分谁在说话，方便基于说话人做针对性剪辑。

短视频批量生产。 配合 Browser Use Box 跑在 VPS 上，可以做成 7×24 小时的自动化剪辑服务，投递到 Telegram 查看成品。

🔍 对比/替代方案

传统剪辑软件（Premiere / Final Cut / 达芬奇）。 功能上限高但学习曲线陡峭，做简单剪辑时大部分功能根本用不上。video-use 不是要取代它们，而是填粗剪和精剪之间的效率鸿沟。

在线 AI 剪辑工具（Runway / Descript）。 操作友好，但定价不便宜，素材需要上传到云端。video-use 本地运行，四秒的视频片段不用等上传，适合隐私敏感的素材。

开源 ffmpeg 脚本方案。 很多团队写了不少 shell 脚本来自动化 ffmpeg，但缺少 AI 决策层，无法根据内容语义做剪辑判断。video-use 的转录驱动 + AI 决策是这个链条里最关键的一环。

⚠️ 注意事项

依赖 ElevenLabs API。 转录环节需要 ElevenLabs Scribe，免费额度有限。不过识别精度确实是目前 TTS/ASR 第一梯队，单次转录就能拿到词级时间戳和说话人标签。
不适合精细调色。 如果你要逐帧调色或者做电影级色彩分级，请回到达芬奇。video-use 的调色是好用的自动化方案，不是专业调色台。
需要一定的终端基础。 虽然安装流程已经尽量简化了，但用到 symlink 和 uv sync，对完全没碰过命令行的用户还是有一点点门槛。

✅ 总结

video-use 的价值不在于「AI 比人剪得好」，而在于「AI 帮人省掉了 80% 的重复劳动」。它把视频剪辑从「打开专业软件→手动找素材上时间轴→一帧一帧剪」变成了「丢素材→说需求→收成品」。

对内容创作者和开发者来说，这是一条很明显的高 ROI 路径。12.4K Stars 和 MIT 协议意味着项目活跃度高且商用友好，值得放进你的技术栈里试一试。

推荐指数：⭐⭐⭐⭐☆
适用人群：内容创作者、独立开发者、开源项目维护者