基于 AI 的自动化浏览器任务执行：如何使用 Browser-Use 实现高效自动化

browser-use是将 AI 代理与浏览器连接起来的最简单方法。它通过为浏览器自动化提供强大而简单的界面，使 AI 代理可以访问网站。

一、Browser-Use 使用案例

可以看官网的案例

1.在 Google 文档中撰写任务：在 Google Docs 中给我爸爸写一封信，感谢他所做的一切，并将文档保存为 PDF。

2.工作申请任务：阅读我的简历并找到 ML 职位，将它们保存到文件中，然后在新标签中开始申请它们。

3.航班搜索任务：在 kayak.com 上查找从苏黎世飞往北京的航班。

4.数据收集任务：查找具有 cc-by-sa-4.0 许可证的模型，并按 Hugging Face 上最喜欢的次数排序，将前 5 名保存到文件中。

二、安装与设置

要使用 Browser-Use，你需要一个基本的 Python 环境。Browser-Use 需要python 的版本在3.11及以上。以下是安装步骤：

1. 创建 Python 虚拟环境

python -m venv ai-demo

对于 Mac/Linux:

source ai-demo/bin/activate

对于 Windows:

ai-demo\Scripts\activate

2. 安装 Browser-Use

pip install browser-use

3. 安装 Playwright（用于浏览器自动化）

安装完成后，还需要再安装 playwright 来执行自动化任务：

playwright install

三、设置 LLM API 密钥

如果你使用的是 OpenAI 或其他 Langchain 支持的聊天模型，需要在 .env 文件中设置 API 密钥。例如，使用 OpenAI 和 Anthropic API：您可以在.env文件中设置 API 密钥，例如：

OPENAI_API_KEY=
ANTHROPIC_API_KEY=

对于其他 LLM 模型，您可以参考Langchain 文档来了解如何使用其特定的 API 密钥进行设置。下面列出几个常用的模型环境变量名:

# azure
AZURE_OPENAI_ENDPOINT=https://your-endpoint.openai.azure.com/
AZURE_OPENAI_KEY=
# deepseek
DEEPSEEK_API_KEY=
#gemini
GEMINI_API_KEY=

四、创建代理脚本

创建一个名为 agent.py 的文件,以下是一个简单的使用 OpenAI 的 API 执行任务。示例：

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
load_dotenv()

import asyncio

llm = ChatOpenAI(model="gpt-4o")

async def main():
    agent = Agent(
        task="Compare the price of gpt-4o and DeepSeek-V3",
        llm=llm,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

别忘了在 .env 文件中添加你的 API 密钥。

五、运行代理脚本

python agent.py

这将启动一个 Chromium 浏览器，执行指定任务并生成一个 GIF 文件，保存在当前目录中。

六、使用 Web UI（无需编码）

对于不熟悉代码的用户，Browser-Use 还提供了一个 Web UI，通过图形界面管理任务和代理。

1. 克隆 Web UI 仓库

git clone https://github.com/browser-use/web-ui.git
cd web-ui

2. 创建 Python 虚拟环境

如果在刚才的设置中已经安装，可以略过

python -m venv ai-demo

# 对于 Mac/Linux:
source ai-demo/bin/activate
# 对于 Windows:
ai-demo\Scripts\activate

3. 安装依赖项

安装所需的 Python 包：

pip install -r requirements.txt

安装 Playwright ,同样如果在刚才的设置中已经安装，可以略过：

playwright install

4. 配置环境

创建示例环境文件的副本：

cp .env.example .env

在您喜欢的文本编辑器中打开.env并添加您的 API 密钥和其他设置.

5. 启动 Web UI

然后在你的终端中运行

python webui.py --ip 127.0.0.1 --port 7788

–ip：绑定WebUI的IP地址，默认为127.0.0.1。
–port：绑定WebUI的端口，默认为7788。

打开您的 Web 浏览器并导航到http://127.0.0.1:7788。

常见错误

如果使用deppseek api 出现这个错误

DEEPSEEK 422 Failed to deserialize the JSON body into the target type #159

alt text

把这里的 use vision 取消一下。见github issue。

6. 使用 Docker 部署（可选）

如果你喜欢使用 Docker，可以通过以下命令进行部署：

创建并配置环境文件：

cp .env.example .env

使用您喜欢的文本编辑器进行编辑.env并添加您的 API 密钥

使用 Docker 运行：

使用以下命令部署

docker compose up --build -d

七、总结

Browser-Use 提供了一个强大的平台，通过简单的接口让 AI 代理与浏览器自动化任务无缝对接。无论是编程实现，还是通过 Web UI 操作，都能轻松实现高效的自动化任务。如果你希望提高工作效率，特别是需要跨网站或平台执行任务，Browser-Use 是一个值得尝试的工具。

关注我获取更多资讯

📢 公众号

💬 个人号