
Webscraper MCP

2025.03.19
3
Python网页抓取文本提取PDF 转换浏览器自动化内容生成
Webscraper MCP 是一个为 Claude 桌面应用设计的 MCP 服务器,它允许 Claude 通过提供的链接抓取网页上的文本内容。此外,它还能从 YouTube 链接中提取视频字幕,以及从 PDF 链接中提取 PDF 文件内容并转换为 Markdown 文本。
View on GitHub
Overview
基本能力
产品定位
Webscraper MCP 主要用于网页内容的抓取和转换,支持从网页、YouTube 视频和 PDF 文件中提取文本内容,为 Claude 桌面应用提供丰富的数据源。
核心功能
- 网页内容抓取:从给定的网页链接中提取文本内容。
- YouTube 字幕提取:从 YouTube 视频链接中提取视频字幕。
- PDF 转换:将 PDF 文件链接中的内容转换为 Markdown 文本。
适用场景
- 用户提供网页链接并询问相关问题,Claude 可以通过抓取网页内容来回答问题。
- 用户提供 YouTube 视频链接,Claude 可以通过提取字幕来回答与视频内容相关的问题。
- 用户提供 PDF 文件链接,Claude 可以通过转换 PDF 内容为 Markdown 文本来回答相关问题。
工具列表
- get_pdf:将 PDF 文件链接转换为 Markdown 文本。
- 参数:
input_url
(字符串):PDF 文件的链接。 -
返回:Markdown 格式的文本。
-
get_webpage_content:从给定的网页链接中提取文本内容。
- 参数:
url
(字符串):需要提取文本的网页链接。 -
返回:网页的文本内容。
-
get_youtube_transcript:从 YouTube 视频链接中提取视频字幕。
- 参数:
url
(字符串):需要提取字幕的 YouTube 视频链接。 - 返回:视频的字幕文本。
常见问题解答
- Q: 该服务支持哪些类型的链接? A: 支持网页链接、YouTube 视频链接和 PDF 文件链接。
- Q: 如何调用这些工具? A: 通过 MCP 服务器提供的 API 接口调用相应的工具函数。
使用教程
使用依赖
- 确保已安装 Python 3.x。
- 安装必要的依赖库:
bash pip install requests beautifulsoup4 pdfminer.six youtube_transcript_api
安装教程
- 克隆或下载 Webscraper MCP 的代码库。
- 进入项目目录,运行以下命令启动 MCP 服务器:
bash python mcp_server.py
调试方式
- 启动 MCP 服务器后,可以通过发送测试请求来验证功能是否正常。
- 使用以下命令测试工具功能(示例):
bash curl -X POST http://localhost:5000/get_webpage_content -H "Content-Type: application/json" -d '{"url":"https://example.com"}'
替换http://localhost:5000
为实际的服务器地址和端口。
许可证
None