video-use 是浏览器自动化明星团队 browser-use 的开源力作,让你用 Claude Code 等编码代理直接剪辑视频。自动剪掉废话和空白、智能调色、生成字幕和动画叠加层,全程无需打开任何专业剪辑软件,纯命令行操作,开源免费,文末附详细使用教程
🎤 引言
你有没有遇到过这种情况:录了一堆素材,想剪成一条像样的视频,结果光是导入素材就劝退了大半热情。Pr 打开要等五分钟,Final Cut 订阅费一年一两千,达芬奇操作门槛高得离谱。
但你电脑上早装了一个比任何剪辑师都听话的工具——编码代理。
browser-use 团队带来了他们的新项目 video-use,思路很野:把视频剪辑完全交给 Claude Code 这类编码代理,你只需要丢一包原始素材到文件夹,然后在命令行里说一声「帮我剪成成品」,剩下的交给 AI。
项目上线两个月飙到 12.4K Stars,MIT 协议全开源。不做 UI、没有菜单、看不到预览窗口——但能剪出带转场、字幕、动画叠加和调色的成品视频。
⭐ 核心功能
video-use 的核心逻辑和 browser-use 一脉相承:AI 代理不需要「看」视频,而是「读」视频。
自动去除废话和空白。 录音里最常见的 "emmm……" "you know……" 和句子之间的尴尬停顿,在转录阶段就被标记出来。AI 代理拿到的是带时间戳的文字转录,看一眼就知道哪句该剪、哪句该留,跟改一篇 Word 文档一样自然。
智能调色。 不需要折腾 lut 和色轮,video-use 内置了 warm cinematic、neutral punch 等多种调色方案,底层是高自由度的 ffmpeg 链。你可以在 prompt 里说「给我剪成暖色调科技风」,它会自动应用到每一个片段。
字幕生成与样式定制。 默认每两个字一组大写英文叠加在画面底部,全部可自定义。不需要手动对轴,AI 代理根据转录和剪辑决策统一切割边界,自动生成字幕文件。
动画叠加层。 这是最惊艳的部分——video-use 通过 HyperFrames、Remotion、Manim 或 PIL 四个引擎来生成动画覆盖物。每个动画由独立的并行子代理生成,做完后拼接到最终视频中。你可以在 prompt 里要求「在画面右上角加一个数据增长动画」,AI 会调用 Remotion 生成对应 SVGs。
自评估循环。 每次渲染完成后,video-use 会在每个剪辑边界调用 timeline_view 检查视觉跳变、音频爆音和字幕遮挡。最多自愈重试三次,只有通过自检的版本才会呈现在你面前。
📥 安装使用
安装 video-use 非常简单,不需要懂剪辑软件。两步走:
# 第一步:克隆项目并链接到编码代理的技能目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # Claude Code
# ln -sfn ~/Developer/video-use ~/.codex/skills/video-use # Codex
# 第二步:安装依赖
cd ~/Developer/video-use
uv sync # 或用 pip install -e .
brew install ffmpeg # 必须
brew install yt-dlp # 可选,用于下载在线素材最后把 ElevenLabs API Key 写入 .env 文件——到 elevenlabs.io/app/settings/api-keys 免费领一个就行。
之后每次想剪视频,打开 Claude Code(或 Codex、Hermes 等任意支持 shell 的编码代理),把 prompt 设成项目提供的 setup 文本,然后告诉它「帮我把这个文件夹里的素材剪成短视频」——AI 会先列出剪辑策略等确认,然后自动开始干活,所有输出放在 edit/ 目录下。
项目地址:GitHub: browser-use/video-use
🎯 适用场景
内容创作者。 如果你日常产出口播类视频、教程或 Vlog,video-use 能帮你省掉 80% 的粗剪时间。以前录一小时的素材剪二十分钟的成品要半天,现在丢进去让 AI 处理,回头收成品。
开发者的项目演示。 做开源项目的不可能专门学剪辑——录好本地演示、写一段 prompt、收工。适合快速产出 GitHub 项目演示视频。
播客剪辑。 多人对话类内容,video-use 有 speaker diarization 能力,能区分谁在说话,方便基于说话人做针对性剪辑。
短视频批量生产。 配合 Browser Use Box 跑在 VPS 上,可以做成 7×24 小时的自动化剪辑服务,投递到 Telegram 查看成品。
🔍 对比/替代方案
传统剪辑软件(Premiere / Final Cut / 达芬奇)。 功能上限高但学习曲线陡峭,做简单剪辑时大部分功能根本用不上。video-use 不是要取代它们,而是填粗剪和精剪之间的效率鸿沟。
在线 AI 剪辑工具(Runway / Descript)。 操作友好,但定价不便宜,素材需要上传到云端。video-use 本地运行,四秒的视频片段不用等上传,适合隐私敏感的素材。
开源 ffmpeg 脚本方案。 很多团队写了不少 shell 脚本来自动化 ffmpeg,但缺少 AI 决策层,无法根据内容语义做剪辑判断。video-use 的转录驱动 + AI 决策是这个链条里最关键的一环。
⚠️ 注意事项
- 依赖 ElevenLabs API。 转录环节需要 ElevenLabs Scribe,免费额度有限。不过识别精度确实是目前 TTS/ASR 第一梯队,单次转录就能拿到词级时间戳和说话人标签。
- 不适合精细调色。 如果你要逐帧调色或者做电影级色彩分级,请回到达芬奇。video-use 的调色是好用的自动化方案,不是专业调色台。
- 需要一定的终端基础。 虽然安装流程已经尽量简化了,但用到 symlink 和
uv sync,对完全没碰过命令行的用户还是有一点点门槛。
✅ 总结
video-use 的价值不在于「AI 比人剪得好」,而在于「AI 帮人省掉了 80% 的重复劳动」。它把视频剪辑从「打开专业软件→手动找素材上时间轴→一帧一帧剪」变成了「丢素材→说需求→收成品」。
对内容创作者和开发者来说,这是一条很明显的高 ROI 路径。12.4K Stars 和 MIT 协议意味着项目活跃度高且商用友好,值得放进你的技术栈里试一试。
推荐指数:⭐⭐⭐⭐☆
适用人群:内容创作者、独立开发者、开源项目维护者