mcp-jinaai-reader

mcp-jinaai-reader

site icon
2025.04.05 25
JavaScript网页内容提取文档分析内容生成
mcp-jinaai-reader 是一个基于 Model Context Protocol (MCP) 的服务,用于集成 Jina.ai 的 Reader API 与大型语言模型 (LLMs)。该服务提供高效且全面的网页内容提取能力,特别优化了文档和网页内容分析。
View on GitHub

Overview

基本能力

产品定位

mcp-jinaai-reader 是一个专门用于网页内容提取和优化的服务,旨在为大型语言模型提供结构化和清洁的网页内容。

核心功能

  • 高级网页内容提取:通过 Jina.ai Reader API 实现高效的网页内容提取。
  • 快速内容检索:提供快速且高效的网页内容获取能力。
  • 完整文本提取:保留网页原始结构的同时提取完整文本内容。
  • 优化格式:为 LLMs 优化的清洁格式。
  • 多内容类型支持:支持包括文档在内的多种网页内容类型。
  • 基于 MCP 构建:建立在 Model Context Protocol 之上,易于集成。

适用场景

  • 文档分析:提取和分析在线文档内容。
  • 网页内容优化:为 LLMs 提供结构化和清洁的网页内容。
  • 自动化数据采集:用于自动化采集和预处理网页数据。

工具列表

  • read_url:将任何 URL 转换为 LLM 友好的文本。
  • 参数
    • url(必需):要处理的 URL。
    • no_cache(可选):绕过缓存获取最新结果。
    • format(可选):响应格式("json" 或 "stream")。
    • timeout(可选):等待网页加载的最大时间(秒)。
    • target_selector(可选):CSS 选择器以聚焦特定元素。
    • wait_for_selector(可选):CSS 选择器以等待特定元素。
    • remove_selector(可选):CSS 选择器以排除特定元素。
    • with_links_summary(可选):在响应末尾收集所有链接。
    • with_images_summary(可选):在响应末尾收集所有图片。
    • with_generated_alt(可选):为缺少标题的图片添加替代文本。
    • with_iframe(可选):在响应中包含 iframe 内容。

常见问题解答

  • 该服务是否仍在维护?
  • 不,该服务已不再维护,建议使用 mcp-omnisearch
  • 如何获取 Jina.ai API 密钥?
  • 需要从 Jina.ai 官方网站获取 API 密钥。

使用教程

使用依赖

  1. 确保已安装 Node.js 和 npm。
  2. 克隆仓库: bash git clone <repository-url>

安装教程

  1. 安装依赖: bash npm install
  2. 构建项目: bash npm run build
  3. 运行开发模式: bash npm run dev

调试方式

  1. 确保环境变量 JINAAI_API_KEY 已正确设置。
  2. 使用 read_url 工具测试内容提取功能: bash curl -X POST http://localhost:<port>/read_url -d '{"url":"https://example.com"}'

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。