
MCP-Server-Template

2025.05.01
0
TypeScript网页爬取数据采集开发工具浏览器自动化开发效率
Webcrawl-MCP 是一个基于 Model Context Protocol (MCP) 的服务器,提供网页爬取能力,并将爬虫工具暴露为 LangChain 兼容的工具或任何符合 MCP 协议的客户端。它包括两个主要服务:mcp-service(基于 Express 的 MCP 服务器)和 crawl4ai-service(负责获取和提取网页内容的微服务)。
View on GitHub
Overview
基本能力
产品定位
Webcrawl-MCP 是一个专注于网页爬取的工具服务器,旨在通过 MCP 协议提供高效的网页内容抓取和解析能力。
核心功能
- 网页爬取:通过 crawl4ai-service 微服务获取和解析网页内容。
- MCP 协议支持:支持 MCP 协议的发现和工具调用。
- LangChain 兼容:提供与 LangChain 兼容的工具接口。
- RESTful API:提供基于 Express 的 RESTful API 接口。
- JSON-RPC 方法:支持 JSON-RPC 方法调用。
适用场景
- 网页内容抓取:用于自动化抓取和解析网页内容。
- 数据采集:适用于需要从多个网页采集数据的场景。
- 开发工具集成:可作为开发工具链的一部分,集成到自动化流程中。
工具列表
- crawl:用于抓取网页内容,支持参数如 URL 和最大页面数。
- info:提供服务器信息,如版本和描述。
常见问题解答
- 如何配置环境变量?:通过
.env
文件或直接设置环境变量。 - 如何扩展爬取逻辑?:修改
src/services/crawlService.ts
文件。 - 如何调整性能和安全设置?:通过
configService.ts
中的环境变量调整。
使用教程
使用依赖
- 安装 Node.js 和 npm。
- 安装 Docker(如需使用 Docker 运行)。
安装教程
使用 Docker
docker-compose up --build
本地运行
- 安装依赖:
npm install
- 定义环境变量(参考 Configuration 部分)。
- 启动服务器:
npm run build
npm start
运行 crawl4ai-service 微服务
- 进入服务目录并安装依赖:
cd crawl4ai-service
npm install
- 构建并启动微服务:
npm run build
npm start
调试方式
- 检查服务器是否运行:
curl http://localhost:11235/mcp/sse
- 测试爬取功能:
curl -N -X POST http://localhost:11235/mcp/sse -H "Content-Type: application/json" -d '{"jsonrpc": "2.0", "method": "mcp.tool.use", "params": {"name": "crawl", "parameters": { "url": "https://example.com", "maxPages": 1 }}, "id": 2}'