WebSearch - Advanced Web Search and Content Extraction Tool

WebSearch - Advanced Web Search and Content Extraction Tool

site icon
2025.03.05 1
Python网页搜索内容提取网页抓取网页爬取搜索工具开发效率
WebSearch-Tools 是一个基于 Python 构建的高级网页搜索和内容提取工具,利用 Firecrawl API 实现高级网页抓取、搜索和内容分析功能。它作为 Model Context Protocol (MCP) 服务器构建,便于集成。
View on GitHub

Overview

基本能力

产品定位

WebSearch-Tools 是一个强大的网页搜索和内容提取工具,专为需要高级网页抓取、搜索和内容分析的用户设计。

核心功能

  • 高级网页搜索:支持自定义参数的智能网页搜索
  • 内容提取:使用自然语言提示从网页中提取特定信息
  • 网页爬取:可配置深度和限制的网站爬取
  • 网页抓取:支持多种输出格式的网页抓取
  • MCP 集成:作为 MCP 服务器构建,便于集成

适用场景

  • 需要从网页中提取特定信息的开发者
  • 进行高级网页搜索的研究人员
  • 需要自动化网页抓取和内容分析的数据分析师

工具列表

  1. Search:执行高级网页搜索
  2. Extract Information:从网页中提取信息
  3. Crawl Websites:爬取网站内容
  4. Scrape Content:抓取网页内容

常见问题解答

  • API 密钥问题:确保所有必需的 API 密钥已正确设置且未过期
  • 环境变量加载:检查 .env 文件是否位于项目根目录
  • 配置错误:验证 API 密钥是否有效且环境变量是否正确加载

使用教程

使用依赖

  • Python 3.8 或更高版本
  • uv 包管理器
  • Firecrawl API 密钥
  • OpenAI API 密钥(可选,用于增强功能)
  • Tavily API 密钥(可选,用于额外的搜索能力)

安装教程

  1. 安装 uv:
# On Windows (using pip)
pip install uv

# On Unix/MacOS
curl -LsSf https://astral.sh/uv/install.sh | sh

# Add uv to PATH (Unix/MacOS)
export PATH="$HOME/.local/bin:$PATH"

# Add uv to PATH (Windows - add to Environment Variables)
# Add: %USERPROFILE%\.local\bin
  1. 克隆仓库:
git clone https://github.com/yourusername/websearch.git
cd websearch
  1. 创建并激活虚拟环境:
# Create virtual environment
uv venv

# Activate on Windows
.\.venv\Scripts\activate.ps1

# Activate on Unix/MacOS
source .venv/bin/activate
  1. 安装依赖:
uv sync
  1. 设置环境变量:
touch .env

# Add your API keys
FIRECRAWL_API_KEY=your_firecrawl_api_key
OPENAI_API_KEY=your_openai_api_key

调试方式

  1. 确保所有 API 密钥已正确设置
  2. 验证 .env 文件位于项目根目录
  3. 检查环境变量是否正确加载
  4. 运行工具并检查输出是否有错误信息

许可证

该项目遵循 MIT 开源许可条款。