browser-use是将 AI 代理与浏览器连接起来的最简单方法。它通过为浏览器自动化提供强大而简单的界面,使 AI 代理可以访问网站。
一、Browser-Use 使用案例
可以看官网的案例
1.在 Google 文档中撰写 任务:在 Google Docs 中给我爸爸写一封信,感谢他所做的一切,并将文档保存为 PDF。
2.工作申请 任务:阅读我的简历并找到 ML 职位,将它们保存到文件中,然后在新标签中开始申请它们。
3.航班搜索 任务:在 kayak.com 上查找从 苏黎世 飞往 北京 的航班。
4.数据收集 任务:查找具有 cc-by-sa-4.0 许可证的模型,并按 Hugging Face 上最喜欢的次数排序,将前 5 名保存到文件中。
二、安装与设置
要使用 Browser-Use,你需要一个基本的 Python 环境。Browser-Use 需要python
的版本在3.11
及以上。以下是安装步骤:
1. 创建 Python 虚拟环境
python -m venv ai-demo
对于 Mac/Linux:
source ai-demo/bin/activate
对于 Windows:
ai-demo\Scripts\activate
2. 安装 Browser-Use
pip install browser-use
3. 安装 Playwright(用于浏览器自动化)
安装完成后,还需要再安装 playwright 来执行自动化任务:
playwright install
三、设置 LLM API 密钥
如果你使用的是 OpenAI 或其他 Langchain 支持的聊天模型,需要在 .env 文件中设置 API 密钥。例如,使用 OpenAI 和 Anthropic API: 您可以在.env文件中设置 API 密钥,例如:
OPENAI_API_KEY=
ANTHROPIC_API_KEY=
对于其他 LLM 模型,您可以参考Langchain 文档来了解如何使用其特定的 API 密钥进行设置。下面列出几个常用的模型环境变量名:
# azure
AZURE_OPENAI_ENDPOINT=https://your-endpoint.openai.azure.com/
AZURE_OPENAI_KEY=
# deepseek
DEEPSEEK_API_KEY=
#gemini
GEMINI_API_KEY=
四、创建代理脚本
创建一个名为 agent.py 的文件,以下是一个简单的使用 OpenAI 的 API 执行任务。示例:
from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
load_dotenv()
import asyncio
llm = ChatOpenAI(model="gpt-4o")
async def main():
agent = Agent(
task="Compare the price of gpt-4o and DeepSeek-V3",
llm=llm,
)
result = await agent.run()
print(result)
asyncio.run(main())
别忘了在 .env 文件中添加你的 API 密钥。
五、运行代理脚本
python agent.py
这将启动一个 Chromium 浏览器,执行指定任务并生成一个 GIF 文件,保存在当前目录中。
六、使用 Web UI(无需编码)
对于不熟悉代码的用户,Browser-Use 还提供了一个 Web UI,通过图形界面管理任务和代理。
1. 克隆 Web UI 仓库
git clone https://github.com/browser-use/web-ui.git
cd web-ui
2. 创建 Python 虚拟环境
如果在刚才的设置中已经安装,可以略过
python -m venv ai-demo
# 对于 Mac/Linux:
source ai-demo/bin/activate
# 对于 Windows:
ai-demo\Scripts\activate
3. 安装依赖项
安装所需的 Python 包:
pip install -r requirements.txt
安装 Playwright ,同样如果在刚才的设置中已经安装,可以略过:
playwright install
4. 配置环境
创建示例环境文件的副本:
cp .env.example .env
在您喜欢的文本编辑器中打开.env并添加您的 API 密钥和其他设置.
5. 启动 Web UI
然后在你的终端中运行
python webui.py --ip 127.0.0.1 --port 7788
-
–ip:绑定WebUI的IP地址,默认为127.0.0.1。
-
–port:绑定WebUI的端口,默认为7788。
打开您的 Web 浏览器并导航到http://127.0.0.1:7788。
常见错误
如果使用deppseek api 出现这个错误
DEEPSEEK 422 Failed to deserialize the JSON body into the target type #159
把这里的 use vision
取消一下。见github issue。
6. 使用 Docker 部署(可选)
如果你喜欢使用 Docker,可以通过以下命令进行部署:
创建并配置环境文件:
cp .env.example .env
使用您喜欢的文本编辑器进行编辑.env并添加您的 API 密钥
使用 Docker 运行:
使用以下命令部署
docker compose up --build -d
七、总结
Browser-Use 提供了一个强大的平台,通过简单的接口让 AI 代理与浏览器自动化任务无缝对接。无论是编程实现,还是通过 Web UI 操作,都能轻松实现高效的自动化任务。如果你希望提高工作效率,特别是需要跨网站或平台执行任务,Browser-Use 是一个值得尝试的工具。
关注我获取更多资讯

