WebforAI Text Extractor - MCP Server

WebforAI Text Extractor - MCP Server

site icon
2025.05.03 0
TypeScript文本提取网页处理内容生成
WebforAI Text Extractor - MCP Server 是一个基于 Cloudflare Workers 的 Model Context Protocol (MCP) 服务器,用于从网页中提取纯文本内容。它利用 WebforAI 库的功能,将 HTML 转换为结构化的 Markdown 文本,并去除 HTML 噪音,使网页内容更适合 AI 模型处理。
View on GitHub

Overview

基本能力

产品定位

WebforAI Text Extractor - MCP Server 是一个用于从网页中提取纯文本内容的服务,旨在为 AI 模型提供干净、结构化的网页内容。

核心功能

  • 简单 API:通过单个 API 调用从任何网页提取文本
  • 干净输出:提供格式良好的 Markdown 文本,去除 HTML 噪音
  • 错误处理:对失败的请求进行稳健的错误处理
  • Cloudflare Workers:支持无服务器部署,全球分发
  • MCP 兼容:可与任何 MCP 客户端(如 Claude Desktop 或 Cloudflare AI Playground)配合使用

适用场景

  • 为 AI 模型提供网页内容
  • 将网页内容转换为结构化 Markdown
  • 在 AI 开发环境中集成网页文本提取功能

工具列表

  • extractWebPageText:从网页 URL 提取文本内容,返回 Markdown 格式的文本

常见问题解答

  • 如何部署到 Cloudflare Workers?
  • 如何连接到 MCP 客户端(如 Claude Desktop)?
  • 如何本地开发?

使用教程

使用依赖

  1. 克隆仓库: bash git clone https://github.com/yutakobayashidev/webforai-mcp-server.git cd webforai-mcp-server

  2. 安装依赖: bash pnpm install

安装教程

  1. 启动开发服务器: bash pnpm dev

  2. 服务器将在 http://localhost:8787 可用

调试方式

  1. 使用 extractWebPageText 工具测试文本提取功能: json { "url": "https://example.com/page" }

  2. 检查返回的 Markdown 格式文本是否符合预期

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。