jcrawl4ai-mcp-server

jcrawl4ai-mcp-server

2025.04.21 1

Java网页爬取数据抓取开发效率

jcrawl4ai-mcp-server 是一个基于 Spring Boot 的 MCP 服务器，用于与 Crawl4ai API 进行交互，主要功能包括网页爬取和获取爬取结果。该项目适用于需要自动化网页数据抓取的场景，如数据分析、内容聚合等。

View on GitHub

Overview

基本能力

产品定位

jcrawl4ai-mcp-server 是一个用于网页爬取的 MCP 服务器，通过与 Crawl4ai API 交互，实现自动化数据抓取。

核心功能

使用指定的策略、最大深度和输出格式对给定的 URL 进行爬取。
根据给定的任务 ID 获取爬取结果。

适用场景

数据分析：自动化抓取网页数据进行分析。
内容聚合：从多个网站抓取内容并整合。
开发测试：用于开发和测试环境的数据抓取。

工具列表

Crawl4aiApi：提供 crawl 和 task 方法，分别用于爬取 URL 和获取爬取结果。

常见问题解答

日志文件路径：./target/mcp-stdio-server.log。
配置问题：确保 application.properties 中的 cawl4ai.base-url 和 cawl4ai.api-token 正确配置。

使用教程

使用依赖

项目依赖于以下库： - Spring AI MCP Server - Spring Boot - Hutool

安装教程

克隆项目或下载源代码。
配置 src/main/resources/application.properties 文件： properties cawl4ai.base-url=http://your-cral4ai-server-url:11235 cawl4ai.api-token=your-api-token
使用 Maven 构建并运行项目： sh mvn clean install java -jar target/jcawl4ai-mcp-server-1.0.0.jar

调试方式

检查日志文件 ./target/mcp-stdio-server.log 以获取运行时的详细信息。
确保 API 令牌和基础 URL 配置正确。
使用 crawl 和 task 方法进行功能测试。

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。