
jcrawl4ai-mcp-server

2025.04.21
1
Java网页爬取数据抓取开发效率
jcrawl4ai-mcp-server 是一个基于 Spring Boot 的 MCP 服务器,用于与 Crawl4ai API 进行交互,主要功能包括网页爬取和获取爬取结果。该项目适用于需要自动化网页数据抓取的场景,如数据分析、内容聚合等。
View on GitHub
Overview
基本能力
产品定位
jcrawl4ai-mcp-server 是一个用于网页爬取的 MCP 服务器,通过与 Crawl4ai API 交互,实现自动化数据抓取。
核心功能
- 使用指定的策略、最大深度和输出格式对给定的 URL 进行爬取。
- 根据给定的任务 ID 获取爬取结果。
适用场景
- 数据分析:自动化抓取网页数据进行分析。
- 内容聚合:从多个网站抓取内容并整合。
- 开发测试:用于开发和测试环境的数据抓取。
工具列表
- Crawl4aiApi:提供
crawl
和task
方法,分别用于爬取 URL 和获取爬取结果。
常见问题解答
- 日志文件路径:
./target/mcp-stdio-server.log
。 - 配置问题:确保
application.properties
中的cawl4ai.base-url
和cawl4ai.api-token
正确配置。
使用教程
使用依赖
项目依赖于以下库: - Spring AI MCP Server - Spring Boot - Hutool
安装教程
- 克隆项目或下载源代码。
- 配置
src/main/resources/application.properties
文件:properties cawl4ai.base-url=http://your-cral4ai-server-url:11235 cawl4ai.api-token=your-api-token
- 使用 Maven 构建并运行项目:
sh mvn clean install java -jar target/jcawl4ai-mcp-server-1.0.0.jar
调试方式
- 检查日志文件
./target/mcp-stdio-server.log
以获取运行时的详细信息。 - 确保 API 令牌和基础 URL 配置正确。
- 使用
crawl
和task
方法进行功能测试。