
WebforAI Text Extractor - MCP Server

2025.05.03
0
TypeScript文本提取网页处理内容生成
WebforAI Text Extractor - MCP Server 是一个基于 Cloudflare Workers 的 Model Context Protocol (MCP) 服务器,用于从网页中提取纯文本内容。它利用 WebforAI 库的功能,将 HTML 转换为结构化的 Markdown 文本,并去除 HTML 噪音,使网页内容更适合 AI 模型处理。
View on GitHub
Overview
基本能力
产品定位
WebforAI Text Extractor - MCP Server 是一个用于从网页中提取纯文本内容的服务,旨在为 AI 模型提供干净、结构化的网页内容。
核心功能
- 简单 API:通过单个 API 调用从任何网页提取文本
- 干净输出:提供格式良好的 Markdown 文本,去除 HTML 噪音
- 错误处理:对失败的请求进行稳健的错误处理
- Cloudflare Workers:支持无服务器部署,全球分发
- MCP 兼容:可与任何 MCP 客户端(如 Claude Desktop 或 Cloudflare AI Playground)配合使用
适用场景
- 为 AI 模型提供网页内容
- 将网页内容转换为结构化 Markdown
- 在 AI 开发环境中集成网页文本提取功能
工具列表
- extractWebPageText:从网页 URL 提取文本内容,返回 Markdown 格式的文本
常见问题解答
- 如何部署到 Cloudflare Workers?
- 如何连接到 MCP 客户端(如 Claude Desktop)?
- 如何本地开发?
使用教程
使用依赖
-
克隆仓库:
bash git clone https://github.com/yutakobayashidev/webforai-mcp-server.git cd webforai-mcp-server
-
安装依赖:
bash pnpm install
安装教程
-
启动开发服务器:
bash pnpm dev
-
服务器将在
http://localhost:8787
可用
调试方式
-
使用
extractWebPageText
工具测试文本提取功能:json { "url": "https://example.com/page" }
-
检查返回的 Markdown 格式文本是否符合预期