一句话让AI自动购物投简历!Browser-Use让它成为现实
2025年3月24日
只需一句话,让AI自动操作浏览器,帮你完成购物、投递简历或在文档中写信,是什么感觉?
国外有个公司,做出的产品——Browser Use
,让AI模拟人使用浏览器,完成复杂任务。他们还获得了顶级风险投资YC的支持。
运用场景
Browser Use的主打省时省力。
比如购物,你懒得比价、下单,输入一句话“把日用品加进购物车然后结账”。Browser Use会自己打开网站,挑东西、下单,全程录个视频给你看,几分钟搞定,比你自己点半天快多了。
再比如找工作,一个个投简历是不是很头疼?直接对Browser Use说:
阅读我的简历并找到机器学习相关的工作,将它们保存到一个文件中,然后在新标签页中开始申请这些工作,如果需要帮助,就问我。
Browser Use会直接上招聘网站,筛选职位、存链接,还能帮你填表。虽然有些网站得手动登录,但这效率已经比手动投高多了。
如果你常跑业务,领英上有很多关注你的人。你让Browser Use“把领英上最新关注我的人加到Salesforce里,AI自己搞定两边切换和录入,省下不少功夫。
上面这些例子,只需要使用Browser Use操作浏览器,就可以完成了。
还有人用它自动填表、测试网站,甚至有人搞了个自动发社交媒体帖子的玩法。
如何上手
几分钟就能跑起来。咱们以“查GPT-4o和DeepSeek-V3价格对比”为例,看看怎么弄。
先装环境,Python得3.11以上:
pip install browser-use
playwright install chromium
然后写代码,告诉AI干啥:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Compare the price of gpt-4o and DeepSeek-V3",
llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()
if __name__ == "__main__":
asyncio.run(main())
别忘了在.env
里加API密钥:
OPENAI_API_KEY=你的密钥
代码运行后AI就自己去查,回来给你结果,整个过程不用你盯着。如果懒得写代码,他们还有个Gradio界面版,装一下就能用:
pip install gradio
python examples/ui/gradio_demo.py
怎么实现的?
它用Playwright(一个浏览器自动化工具)控制浏览器,模拟点击输入,再靠大模型(比如OpenAI)理解任务、指挥操作。
简单说,就是借助AI+Playwright,打造了一个会思考又会动手的小助手。这个项目还在优化AI的记忆和规划,比如让它更聪明地处理网页、支持创建更复杂任务数据集、改善人机协作体验。
项目组还在设立了UI/UX设计委员会,让软件更适合AI代理操作。
从Browser Use可以看到,AI会越来越擅长处理复杂任务,原本繁琐的工作,也可以自动化。
未来充满各种可能。