mcp-jinaai-reader

mcp-jinaai-reader

2025.04.05 25

JavaScript网页内容提取文档分析内容生成

mcp-jinaai-reader 是一个基于 Model Context Protocol (MCP) 的服务，用于集成 Jina.ai 的 Reader API 与大型语言模型 (LLMs)。该服务提供高效且全面的网页内容提取能力，特别优化了文档和网页内容分析。

View on GitHub

Overview

基本能力

产品定位

mcp-jinaai-reader 是一个专门用于网页内容提取和优化的服务，旨在为大型语言模型提供结构化和清洁的网页内容。

核心功能

高级网页内容提取：通过 Jina.ai Reader API 实现高效的网页内容提取。
快速内容检索：提供快速且高效的网页内容获取能力。
完整文本提取：保留网页原始结构的同时提取完整文本内容。
优化格式：为 LLMs 优化的清洁格式。
多内容类型支持：支持包括文档在内的多种网页内容类型。
基于 MCP 构建：建立在 Model Context Protocol 之上，易于集成。

适用场景

文档分析：提取和分析在线文档内容。
网页内容优化：为 LLMs 提供结构化和清洁的网页内容。
自动化数据采集：用于自动化采集和预处理网页数据。

工具列表

read_url：将任何 URL 转换为 LLM 友好的文本。
参数：
- url（必需）：要处理的 URL。
- no_cache（可选）：绕过缓存获取最新结果。
- format（可选）：响应格式（"json" 或 "stream"）。
- timeout（可选）：等待网页加载的最大时间（秒）。
- target_selector（可选）：CSS 选择器以聚焦特定元素。
- wait_for_selector（可选）：CSS 选择器以等待特定元素。
- remove_selector（可选）：CSS 选择器以排除特定元素。
- with_links_summary（可选）：在响应末尾收集所有链接。
- with_images_summary（可选）：在响应末尾收集所有图片。
- with_generated_alt（可选）：为缺少标题的图片添加替代文本。
- with_iframe（可选）：在响应中包含 iframe 内容。

常见问题解答

该服务是否仍在维护？
不，该服务已不再维护，建议使用 mcp-omnisearch。
如何获取 Jina.ai API 密钥？
需要从 Jina.ai 官方网站获取 API 密钥。

使用教程

使用依赖

确保已安装 Node.js 和 npm。
克隆仓库： bash git clone <repository-url>

安装教程

安装依赖： bash npm install
构建项目： bash npm run build
运行开发模式： bash npm run dev

调试方式

确保环境变量 JINAAI_API_KEY 已正确设置。
使用 read_url 工具测试内容提取功能： bash curl -X POST http://localhost:<port>/read_url -d '{"url":"https://example.com"}'

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。