Page-Agent 是阿里巴巴开源的网页内置 AI 代理,一行 script 标签注入网页,用自然语言控制任意 Web 界面。无需浏览器扩展、无需 Puppeteer,直接读 DOM 文本执行操作,支持 MCP 协议和 Chrome 扩展,23.3k Stars。

🎤 引言

传统浏览器自动化是什么流程?装 Python、装 Puppeteer 或 Playwright、写一堆 await page.click()、配 headless Chrome 环境——好不容易跑起来,代码比业务逻辑还长。

AI 浏览器自动化呢?Claude/MCP 架构一顿操作,又是 browser-use 又是截图解析又是多模态模型——效果不错但资源消耗感人。

Page-Agent 换了个思路:把 AI 代理直接注入到网页内部,让它从里面操控 DOM,而不是从外面控制浏览器。23.3k Stars,1,085 Commits,MIT 协议——这就是阿里巴巴开源的 Page-Agent。


⭐ 核心功能

1. 一行代码集成

最震撼的其实是集成门槛——只需要一行 script 标签

<script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js" crossorigin="true"></script>

不需要浏览器扩展、不需要 Python 环境、不需要 headless Chrome,不依赖 Puppeteer。CDN 加载完,页面上就多了一个 AI 代理,直接用自然语言操控界面。

2. 基于 DOM 文本的操控(无截图)

这是 Page-Agent 和其他 AI 浏览器工具的本质区别。它读取 DOM 树结构作为文本,不需要截图、不需要多模态大模型、不需要视觉理解。

传统 screenshot-based 方法:截图 → 发送给 GPT-4V → 解析 → 返回指令 → 控制浏览器
Page-Agent 方法:读取 DOM 文本 → 发送给普通 LLM → 返回指令 → 直接操作 DOM

DOM 文本 vs 截图:延迟更低、成本更低、不依赖昂贵的视觉模型。

3. 自带 LLM(BYOLLM 架构)

不绑死模型,可以接任何 OpenAI 兼容端点:

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen3.5-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: 'YOUR_API_KEY',
    language: 'en-US',
})

await agent.execute('Click the login button')

支持:通义千问(qwen)、OpenAI、Claude(通过 OpenRouter)、本地 Ollama——完全自己掌控数据流向。

4. Chrome 扩展 + MCP Server

  • Chrome 扩展:用于多标签页任务,让 AI 代理跨浏览器标签工作
  • MCP Server(Beta):把浏览器控制能力暴露给外部 AI 系统(如 Claude Desktop),让高级 AI Agent 可以操控你的浏览器

5. 企业级安全特性

  • 数据脱敏(DOM dehydration)
  • 代理授权
  • Zod 验证
  • 人工审批工作流
  • 敏感字段过滤

📥 安装与使用

方式一:CDN 一行引入(最快)

<!DOCTYPE html>
<html>
<head>
  <script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js" crossorigin="true"></script>
</head>
<body>
  <button id="myBtn">Click me</button>
  <script>
    new window.PageAgent().execute('Click the button with id myBtn')
  </script>
</body>
</html>
⚠️ Demo CDN 使用的是阿里免费测试 LLM API,仅供技术评估使用。

方式二:NPM 引入(生产环境)

npm install page-agent
import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: process.env.DASHSCOPE_API_KEY,
})

// SaaS 产品内嵌 AI Copilot
await agent.execute('Fill in the username field with John')

方式三:Chrome 扩展(多标签页任务)

  1. 访问 [Chrome Web Store] 或 GitHub releases 下载扩展
  2. 安装后打开扩展,配置 LLM 端点
  3. 在任意标签页激活 Page-Agent,用自然语言操控

技术架构

组件技术
语言TypeScript
核心依赖browser-use DOM 处理组件
包管理npm/pnpm
LLM 接口OpenAI 兼容(/v1/chat/completions)
部署方式CDN / npm / Chrome 扩展

🎯 适用场景

1. SaaS 产品内嵌 AI Copilot

想象一个复杂的 ERP 系统,用户可以说「帮我把这张订单的发货地址改成上海浦东」——不需要记住操作路径,不需要在菜单里翻找,Page-Agent 直接帮用户操作。这是目前 Page-Agent 最成熟的应用场景。

2. 表单填写自动化

20 步点击变成一句话:「帮我填好这份供应商申请表,公司名填 ABC公司,联系人填张三」。适合 B2B 平台、CRM、admin 后台系统。

3. 无障碍辅助

让任何网页都能用自然语言操控,配合语音输入可以让视障用户「用嘴浏览网页」。Page-Agent 直接操作 DOM,不需要依赖网页本身的 accessibility 支持。

4. 跨标签页 AI 工作流

Chrome 扩展让 AI 同时操控多个标签页——一个标签打开竞品官网,一个标签更新内部 CMS,自动完成竞品分析和数据录入。

5. AI Agent 的「浏览器手」

通过 MCP Server,Page-Agent 成为高级 AI Agent(如 Claude)的执行终端。外部 Agent 负责规划,Page-Agent 负责操控浏览器执行。


🔍 对比/替代方案

工具架构操控方式LLM集成方式适用场景
Page-Agent内嵌网页DOM 文本BYOLLMscript/npmSaaS Copilot
browser-use服务端截图+DOM多模态Python通用自动化
NanobrowserChrome 扩展外部控制多模态扩展跨站自动化
Puppeteer服务端APINode.js程序员工具
Playwright服务端API多语言QA/测试

Page-Agent 的核心差异

  • 唯一「从网页内部操控」的工具,不是从外部控制浏览器
  • 不需要截图和多模态模型,成本和延迟都更低
  • 集成门槛最低,一行 HTML 即可

不擅长的事

  • 不做代码补全(不是 Cursor/Copilot 替代品)
  • 客户端执行,无法后台运行定时任务
  • 跨站自动化不如 Nanobrowser 灵活

⚠️ 注意事项

1. Demo CDN 不能用于生产

README 明确写了:「Demo CDN 使用的是阿里免费测试 LLM API,仅供技术评估」。生产环境必须用自己的 API Key。

2. 不能替代代码编辑器工具

Page-Agent 控制的是网页 UI,不是代码。如果需要 AI 辅助写代码,用 Cursor/GitHub Copilot;Page-Agent 是互补工具,不是替代品。

3. 仅支持客户端执行

没有用户在场就无法运行——不能用来做后台爬虫、定时任务、无人值守自动化。这些场景还是得靠 Playwright/Puppeteer。

4. LLM 成本取决于你选什么模型

用 GPT-4o 成本高,用本地 Ollama 免费但需要自己维护。通义千问性价比不错,是国内用户的合理选择。

5. 需要目标页面 DOM 结构可读

SPA 页面如果大量使用 Web Components 或 Shadow DOM,Page-Agent 的 DOM 读取能力可能受限。


✅ 总结

Page-Agent 是浏览器自动化的新范式——不再「从外部控制浏览器」,而是「从内部操控网页」。一行 script 标签让任何网页获得 AI 操控能力,23.3k Stars 说明社区对这条路线的认可。

优点

  • 一行代码集成,门槛极低
  • DOM 文本操控,无需截图和多模态模型
  • BYOLLM,数据流向完全可控
  • MCP Server 支持,成为 AI Agent 的浏览器手
  • Chrome 扩展支持多标签页任务
  • MIT 协议,完全开源

缺点

  • 不支持代码补全(不是 IDE 工具)
  • 客户端执行,无法后台运行
  • 跨站自动化不如专门的扩展方案

推荐指数:⭐⭐⭐⭐(4/5)

适合所有需要给 Web 产品增加 AI 操控能力的开发者,以及需要用自然语言操控复杂网页的用户。传统浏览器自动化太重,Page-Agent 把这个问题简化到了一个 script 标签的级别。

GitHub 仓库:alibaba/page-agent
NPM 包:npmjs.com/package/page-agent
文档:github.com/alibaba/page-agent#readme