基于 AI 的自动化浏览器任务执行:如何使用 Browser-Use 实现高效自动化|从安装到应用的全面指南

Browser-Use 是一款能够将 AI 代理与浏览器自动化结合的工具,它提供了简便的界面,使 AI 代理可以访问并操作网站,自动化完成各种任务。无论是撰写文档、申请工作、搜索航班,还是收集特定数据,Browser-Use 都能有效地执行这些任务。它不仅支持 Python 编程,还提供了 Web UI 界面,方便没有编程经验的用户使用。通过 Playwright 的集成,Browser-Use 能够模拟真实的浏览器操作,提升自动化效率。本文详细介绍了如何安装和配置 Browser-Use,如何通过代码或 Web UI 执行任务,并提供了实际应用的示例,帮助开发者快速上手并实现高效的自动化任务管理。

阅读时长: 3 分钟
共 1309字
作者: eimoon.com

browser-use是将 AI 代理与浏览器连接起来的最简单方法。它通过为浏览器自动化提供强大而简单的界面,使 AI 代理可以访问网站。

一、Browser-Use 使用案例

可以看官网的案例

1.在 Google 文档中撰写 任务:在 Google Docs 中给我爸爸写一封信,感谢他所做的一切,并将文档保存为 PDF。

2.工作申请 任务:阅读我的简历并找到 ML 职位,将它们保存到文件中,然后在新标签中开始申请它们。

3.航班搜索 任务:在 kayak.com 上查找从 苏黎世 飞往 北京 的航班。

4.数据收集 任务:查找具有 cc-by-sa-4.0 许可证的模型,并按 Hugging Face 上最喜欢的次数排序,将前 5 名保存到文件中。

二、安装与设置

要使用 Browser-Use,你需要一个基本的 Python 环境。Browser-Use 需要python 的版本在3.11及以上。以下是安装步骤:

1. 创建 Python 虚拟环境

python -m venv ai-demo

对于 Mac/Linux:

source ai-demo/bin/activate

对于 Windows:

ai-demo\Scripts\activate

2. 安装 Browser-Use

pip install browser-use

3. 安装 Playwright(用于浏览器自动化)

安装完成后,还需要再安装 playwright 来执行自动化任务:

playwright install

三、设置 LLM API 密钥

如果你使用的是 OpenAI 或其他 Langchain 支持的聊天模型,需要在 .env 文件中设置 API 密钥。例如,使用 OpenAI 和 Anthropic API: 您可以在.env文件中设置 API 密钥,例如:

OPENAI_API_KEY=
ANTHROPIC_API_KEY=

对于其他 LLM 模型,您可以参考Langchain 文档来了解如何使用其特定的 API 密钥进行设置。下面列出几个常用的模型环境变量名:

# azure
AZURE_OPENAI_ENDPOINT=https://your-endpoint.openai.azure.com/
AZURE_OPENAI_KEY=
# deepseek
DEEPSEEK_API_KEY=
#gemini
GEMINI_API_KEY=

四、创建代理脚本

创建一个名为 agent.py 的文件,以下是一个简单的使用 OpenAI 的 API 执行任务。示例:

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
load_dotenv()

import asyncio

llm = ChatOpenAI(model="gpt-4o")

async def main():
    agent = Agent(
        task="Compare the price of gpt-4o and DeepSeek-V3",
        llm=llm,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

别忘了在 .env 文件中添加你的 API 密钥。

五、运行代理脚本

python agent.py

这将启动一个 Chromium 浏览器,执行指定任务并生成一个 GIF 文件,保存在当前目录中。

六、使用 Web UI(无需编码)

对于不熟悉代码的用户,Browser-Use 还提供了一个 Web UI,通过图形界面管理任务和代理。

1. 克隆 Web UI 仓库

git clone https://github.com/browser-use/web-ui.git
cd web-ui

2. 创建 Python 虚拟环境

如果在刚才的设置中已经安装,可以略过

python -m venv ai-demo
# 对于 Mac/Linux:
source ai-demo/bin/activate
# 对于 Windows:
ai-demo\Scripts\activate

3. 安装依赖项

安装所需的 Python 包:

pip install -r requirements.txt

安装 Playwright ,同样如果在刚才的设置中已经安装,可以略过:

playwright install

4. 配置环境

创建示例环境文件的副本:

cp .env.example .env

在您喜欢的文本编辑器中打开.env并添加您的 API 密钥和其他设置.

5. 启动 Web UI

然后在你的终端中运行

python webui.py --ip 127.0.0.1 --port 7788
  • –ip:绑定WebUI的IP地址,默认为127.0.0.1。

  • –port:绑定WebUI的端口,默认为7788。

打开您的 Web 浏览器并导航到http://127.0.0.1:7788。

常见错误

如果使用deppseek api 出现这个错误

DEEPSEEK 422 Failed to deserialize the JSON body into the target type #159

alt text

把这里的 use vision 取消一下。见github issue

6. 使用 Docker 部署(可选)

如果你喜欢使用 Docker,可以通过以下命令进行部署:

创建并配置环境文件:

cp .env.example .env

使用您喜欢的文本编辑器进行编辑.env并添加您的 API 密钥

使用 Docker 运行:

使用以下命令部署

docker compose up --build -d

七、总结

Browser-Use 提供了一个强大的平台,通过简单的接口让 AI 代理与浏览器自动化任务无缝对接。无论是编程实现,还是通过 Web UI 操作,都能轻松实现高效的自动化任务。如果你希望提高工作效率,特别是需要跨网站或平台执行任务,Browser-Use 是一个值得尝试的工具。

关注我获取更多资讯

公众号
📢 公众号
个人号
💬 个人号
使用 Hugo 构建
主题 StackJimmy 设计