jcrawl4ai-mcp-server

jcrawl4ai-mcp-server

site icon
2025.04.21 1
Java网页爬取数据抓取开发效率
jcrawl4ai-mcp-server 是一个基于 Spring Boot 的 MCP 服务器,用于与 Crawl4ai API 进行交互,主要功能包括网页爬取和获取爬取结果。该项目适用于需要自动化网页数据抓取的场景,如数据分析、内容聚合等。
View on GitHub

Overview

基本能力

产品定位

jcrawl4ai-mcp-server 是一个用于网页爬取的 MCP 服务器,通过与 Crawl4ai API 交互,实现自动化数据抓取。

核心功能

  • 使用指定的策略、最大深度和输出格式对给定的 URL 进行爬取。
  • 根据给定的任务 ID 获取爬取结果。

适用场景

  • 数据分析:自动化抓取网页数据进行分析。
  • 内容聚合:从多个网站抓取内容并整合。
  • 开发测试:用于开发和测试环境的数据抓取。

工具列表

  • Crawl4aiApi:提供 crawltask 方法,分别用于爬取 URL 和获取爬取结果。

常见问题解答

  • 日志文件路径./target/mcp-stdio-server.log
  • 配置问题:确保 application.properties 中的 cawl4ai.base-urlcawl4ai.api-token 正确配置。

使用教程

使用依赖

项目依赖于以下库: - Spring AI MCP Server - Spring Boot - Hutool

安装教程

  1. 克隆项目或下载源代码。
  2. 配置 src/main/resources/application.properties 文件: properties cawl4ai.base-url=http://your-cral4ai-server-url:11235 cawl4ai.api-token=your-api-token
  3. 使用 Maven 构建并运行项目: sh mvn clean install java -jar target/jcawl4ai-mcp-server-1.0.0.jar

调试方式

  1. 检查日志文件 ./target/mcp-stdio-server.log 以获取运行时的详细信息。
  2. 确保 API 令牌和基础 URL 配置正确。
  3. 使用 crawltask 方法进行功能测试。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。