Skip to content

PDF Helper MCP

PDF Helper MCP Server 提供 PDF 文档处理能力,支持 PDF 读取、文本提取和内容分析。

功能概述

功能模块描述
文本提取提取 PDF 中的文本内容
页面信息获取页面数量、尺寸等信息
内容分析分析文档结构和内容
元数据读取文档属性和元数据

核心特性

  • 高精度提取 - 准确提取 PDF 文本内容
  • 结构化输出 - 保留文档的结构信息
  • 多格式支持 - 支持各种 PDF 格式
  • 大文件处理 - 支持处理大型 PDF 文档

核心功能分类

1. 文本提取

extract_text - 提取文本

  • 提取整个文档的文本
  • 按页面提取文本
  • 保留基本格式

extract_page_text - 提取页面文本

  • 提取指定页面的文本
  • 支持页码范围
  • 返回分页内容

2. 页面信息

get_page_count - 获取页数

  • 返回文档总页数
  • 快速统计不读取内容

get_page_info - 获取页面信息

  • 页面尺寸(宽高)
  • 页面方向
  • 页面旋转角度

3. 文档信息

get_metadata - 获取元数据

  • 标题、作者、主题
  • 创建日期、修改日期
  • PDF 版本信息

get_document_info - 获取文档信息

  • 文件大小
  • 是否加密
  • 权限信息

4. 内容分析

analyze_structure - 分析结构

  • 识别标题层级
  • 提取目录结构
  • 检测表格区域

search_text - 搜索文本

  • 在文档中搜索关键词
  • 返回匹配位置
  • 支持正则表达式

MCP 工具列表

工具名功能说明
extract_text提取 PDF 文本内容
extract_page_text提取指定页面文本
get_page_count获取文档页数
get_page_info获取页面信息
get_metadata获取文档元数据
get_document_info获取文档信息
analyze_structure分析文档结构
search_text搜索文本内容

使用场景

1. 文档阅读

  • 提取 PDF 内容供 AI 分析
  • 快速获取文档摘要
  • 搜索特定信息

2. 数据提取

  • 从报告中提取数据
  • 批量处理 PDF 文档
  • 结构化信息提取

3. 文档管理

  • 获取文档元数据
  • 建立文档索引
  • 文档分类整理

4. 内容分析

  • 分析文档结构
  • 提取关键信息
  • 内容比较分析

支持的 PDF 类型

类型支持情况
文本 PDF✅ 完全支持
扫描 PDF⚠️ 需 OCR 支持
加密 PDF⚠️ 需要密码
表单 PDF✅ 支持
图像 PDF✅ 支持

提取选项

选项说明
pages指定页面范围
layout保留布局格式
tables提取表格数据
images提取图片描述

输出格式

格式说明
plain纯文本格式
markdownMarkdown 格式
structured结构化 JSON

优势特点

优势说明
✅ 高精度准确提取文本内容
✅ 保留结构保持文档原有结构
✅ 快速处理高效处理大型文档
✅ 多功能提取、分析、搜索一体
✅ 易集成MCP 协议标准接口

提示

PDF Helper MCP 服务随 Evol 应用自动启动,无需手动配置。

Evol - 让 AI 成为您的智能工作伙伴