
mcp-jinaai-reader

2025.04.05
25
JavaScript网页内容提取文档分析内容生成
mcp-jinaai-reader 是一个基于 Model Context Protocol (MCP) 的服务,用于集成 Jina.ai 的 Reader API 与大型语言模型 (LLMs)。该服务提供高效且全面的网页内容提取能力,特别优化了文档和网页内容分析。
View on GitHub
Overview
基本能力
产品定位
mcp-jinaai-reader 是一个专门用于网页内容提取和优化的服务,旨在为大型语言模型提供结构化和清洁的网页内容。
核心功能
- 高级网页内容提取:通过 Jina.ai Reader API 实现高效的网页内容提取。
- 快速内容检索:提供快速且高效的网页内容获取能力。
- 完整文本提取:保留网页原始结构的同时提取完整文本内容。
- 优化格式:为 LLMs 优化的清洁格式。
- 多内容类型支持:支持包括文档在内的多种网页内容类型。
- 基于 MCP 构建:建立在 Model Context Protocol 之上,易于集成。
适用场景
- 文档分析:提取和分析在线文档内容。
- 网页内容优化:为 LLMs 提供结构化和清洁的网页内容。
- 自动化数据采集:用于自动化采集和预处理网页数据。
工具列表
- read_url:将任何 URL 转换为 LLM 友好的文本。
- 参数:
url
(必需):要处理的 URL。no_cache
(可选):绕过缓存获取最新结果。format
(可选):响应格式("json" 或 "stream")。timeout
(可选):等待网页加载的最大时间(秒)。target_selector
(可选):CSS 选择器以聚焦特定元素。wait_for_selector
(可选):CSS 选择器以等待特定元素。remove_selector
(可选):CSS 选择器以排除特定元素。with_links_summary
(可选):在响应末尾收集所有链接。with_images_summary
(可选):在响应末尾收集所有图片。with_generated_alt
(可选):为缺少标题的图片添加替代文本。with_iframe
(可选):在响应中包含 iframe 内容。
常见问题解答
- 该服务是否仍在维护?
- 不,该服务已不再维护,建议使用 mcp-omnisearch。
- 如何获取 Jina.ai API 密钥?
- 需要从 Jina.ai 官方网站获取 API 密钥。
使用教程
使用依赖
- 确保已安装 Node.js 和 npm。
- 克隆仓库:
bash git clone <repository-url>
安装教程
- 安装依赖:
bash npm install
- 构建项目:
bash npm run build
- 运行开发模式:
bash npm run dev
调试方式
- 确保环境变量
JINAAI_API_KEY
已正确设置。 - 使用
read_url
工具测试内容提取功能:bash curl -X POST http://localhost:<port>/read_url -d '{"url":"https://example.com"}'