
WebSearch - Advanced Web Search and Content Extraction Tool

2025.03.05
1
Python网页搜索内容提取网页抓取网页爬取搜索工具开发效率
WebSearch-Tools 是一个基于 Python 构建的高级网页搜索和内容提取工具,利用 Firecrawl API 实现高级网页抓取、搜索和内容分析功能。它作为 Model Context Protocol (MCP) 服务器构建,便于集成。
View on GitHub
Overview
基本能力
产品定位
WebSearch-Tools 是一个强大的网页搜索和内容提取工具,专为需要高级网页抓取、搜索和内容分析的用户设计。
核心功能
- 高级网页搜索:支持自定义参数的智能网页搜索
- 内容提取:使用自然语言提示从网页中提取特定信息
- 网页爬取:可配置深度和限制的网站爬取
- 网页抓取:支持多种输出格式的网页抓取
- MCP 集成:作为 MCP 服务器构建,便于集成
适用场景
- 需要从网页中提取特定信息的开发者
- 进行高级网页搜索的研究人员
- 需要自动化网页抓取和内容分析的数据分析师
工具列表
- Search:执行高级网页搜索
- Extract Information:从网页中提取信息
- Crawl Websites:爬取网站内容
- Scrape Content:抓取网页内容
常见问题解答
- API 密钥问题:确保所有必需的 API 密钥已正确设置且未过期
- 环境变量加载:检查
.env
文件是否位于项目根目录 - 配置错误:验证 API 密钥是否有效且环境变量是否正确加载
使用教程
使用依赖
- Python 3.8 或更高版本
- uv 包管理器
- Firecrawl API 密钥
- OpenAI API 密钥(可选,用于增强功能)
- Tavily API 密钥(可选,用于额外的搜索能力)
安装教程
- 安装 uv:
# On Windows (using pip)
pip install uv
# On Unix/MacOS
curl -LsSf https://astral.sh/uv/install.sh | sh
# Add uv to PATH (Unix/MacOS)
export PATH="$HOME/.local/bin:$PATH"
# Add uv to PATH (Windows - add to Environment Variables)
# Add: %USERPROFILE%\.local\bin
- 克隆仓库:
git clone https://github.com/yourusername/websearch.git
cd websearch
- 创建并激活虚拟环境:
# Create virtual environment
uv venv
# Activate on Windows
.\.venv\Scripts\activate.ps1
# Activate on Unix/MacOS
source .venv/bin/activate
- 安装依赖:
uv sync
- 设置环境变量:
touch .env
# Add your API keys
FIRECRAWL_API_KEY=your_firecrawl_api_key
OPENAI_API_KEY=your_openai_api_key
调试方式
- 确保所有 API 密钥已正确设置
- 验证
.env
文件位于项目根目录 - 检查环境变量是否正确加载
- 运行工具并检查输出是否有错误信息