
MCP Server for Oxylabs Scraper

2025.04.17
14
Python网页抓取数据提取AI 数据访问浏览器自动化开发效率
Oxylabs MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,旨在为 AI 助手(如 Claude)提供强大的网页数据抓取能力。它通过 Oxylabs 的网页抓取技术,使 AI 模型能够无缝访问和处理网页数据,包括动态渲染的页面、结构化数据提取以及绕过反爬虫措施等功能。
View on GitHub
Overview
基本能力
产品定位
Oxylabs MCP Server 是一个桥梁,连接 AI 模型和网页数据,提供强大的网页抓取和数据处理能力。
核心功能
- 从任何网站抓取内容
- 支持从任何 URL 提取数据,包括复杂的单页应用
- 使用无头浏览器支持完全渲染动态网站
- 可选择全 JavaScript 渲染、仅 HTML 或无渲染
-
模拟移动和桌面视口以实现真实渲染
-
自动获取 AI 就绪数据
- 自动清理并将 HTML 转换为 Markdown 以提高可读性
-
使用自动化解析器处理流行目标(如 Google、Amazon 等)
-
绕过封锁和地理限制
- 绕过复杂的机器人保护系统,成功率极高
- 可靠地抓取最复杂的网站
-
使用覆盖 195+ 国家的代理池自动轮换 IP
-
灵活设置和跨平台支持
- 根据需要设置渲染和解析选项
- 将数据直接输入 AI 模型或分析工具
-
支持 macOS、Windows 和 Linux
-
内置错误处理和请求管理
- 全面的错误处理和报告
- 智能速率限制和请求管理
适用场景
- AI 助手需要实时获取网页数据
- 需要绕过反爬虫措施或地理限制的网页抓取
- 动态渲染的网页数据提取
- 结构化数据提取和转换
工具列表
- oxylabs_scraper:使用 Oxylabs Web Scraper API 进行通用网站抓取
- oxylabs_web_unblocker:使用 Oxylabs Web Unblocker 访问难以访问的网站
常见问题解答
- 使用 MCP Inspector 时可能会遇到 Python SDK 的问题,目前使用了一个临时修复的分支版本。
使用教程
使用依赖
- Oxylabs 账户:从 Oxylabs 获取用户名和密码(提供 1 周免费试用)
- Node.js (v16+) 和
npx
命令行工具(通过 Smithery CLI 安装) - uv 包管理器(通过 uv 安装)
- Python 3.12+(本地/开发设置)
安装教程
通过 Smithery 安装
npx -y @smithery/cli install @oxylabs/oxylabs-mcp --client claude
使用 uv 在 Claude Desktop 中安装
编辑 claude_desktop_config.json
文件如下:
{
"mcpServers": {
"oxylabs_scraper": {
"command": "uvx",
"args": ["oxylabs-mcp"],
"env": {
"OXYLABS_USERNAME": "YOUR_USERNAME_HERE",
"OXYLABS_PASSWORD": "YOUR_PASSWORD_HERE"
}
}
}
}
本地/开发设置
- 克隆仓库
git clone <git:url>
- 安装依赖
cd mcp-server-oxylabs
uv venv
source .venv/bin/activate # MacOS/Linux
# OR
.venv/Scripts/activate # Windows
uv sync
- 设置 Claude Desktop
编辑
claude_desktop_config.json
文件如下:
{
"mcpServers": {
"oxylabs_scraper": {
"command": "uv",
"args": [
"--directory",
"/<Absolute-path-to-folder>/oxylabs-mcp",
"run",
"oxylabs-mcp"
],
"env": {
"OXYLABS_USERNAME": "YOUR_USERNAME_HERE",
"OXYLABS_PASSWORD": "YOUR_PASSWORD_HERE"
}
}
}
}
调试方式
make run
然后访问 MCP Inspector 在 http://localhost:5173
。可能需要添加用户名和密码作为环境变量。