MCP-Server-Template - FindMCP.info

Overview

基本能力

产品定位

Webcrawl-MCP 是一个专注于网页爬取的工具服务器，旨在通过 MCP 协议提供高效的网页内容抓取和解析能力。

核心功能

网页爬取：通过 crawl4ai-service 微服务获取和解析网页内容。
MCP 协议支持：支持 MCP 协议的发现和工具调用。
LangChain 兼容：提供与 LangChain 兼容的工具接口。
RESTful API：提供基于 Express 的 RESTful API 接口。
JSON-RPC 方法：支持 JSON-RPC 方法调用。

适用场景

网页内容抓取：用于自动化抓取和解析网页内容。
数据采集：适用于需要从多个网页采集数据的场景。
开发工具集成：可作为开发工具链的一部分，集成到自动化流程中。

工具列表

crawl：用于抓取网页内容，支持参数如 URL 和最大页面数。
info：提供服务器信息，如版本和描述。

常见问题解答

如何配置环境变量？：通过 .env 文件或直接设置环境变量。
如何扩展爬取逻辑？：修改 src/services/crawlService.ts 文件。
如何调整性能和安全设置？：通过 configService.ts 中的环境变量调整。

使用教程

使用依赖

安装 Node.js 和 npm。
安装 Docker（如需使用 Docker 运行）。

安装教程

使用 Docker

docker-compose up --build

本地运行

安装依赖：

npm install

定义环境变量（参考 Configuration 部分）。
启动服务器：

npm run build
npm start

运行 crawl4ai-service 微服务

cd crawl4ai-service
npm install

构建并启动微服务：

npm run build
npm start

调试方式

检查服务器是否运行：

curl http://localhost:11235/mcp/sse

测试爬取功能：

curl -N -X POST http://localhost:11235/mcp/sse -H "Content-Type: application/json" -d '{"jsonrpc": "2.0", "method": "mcp.tool.use", "params": {"name": "crawl", "parameters": { "url": "https://example.com", "maxPages": 1 }}, "id": 2}'

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。