PDF Helper MCP
PDF Helper MCP Server 提供 PDF 文档处理能力,支持 PDF 读取、文本提取和内容分析。
功能概述
| 功能模块 | 描述 |
|---|---|
| 文本提取 | 提取 PDF 中的文本内容 |
| 页面信息 | 获取页面数量、尺寸等信息 |
| 内容分析 | 分析文档结构和内容 |
| 元数据 | 读取文档属性和元数据 |
核心特性
- 高精度提取 - 准确提取 PDF 文本内容
- 结构化输出 - 保留文档的结构信息
- 多格式支持 - 支持各种 PDF 格式
- 大文件处理 - 支持处理大型 PDF 文档
核心功能分类
1. 文本提取
extract_text - 提取文本
- 提取整个文档的文本
- 按页面提取文本
- 保留基本格式
extract_page_text - 提取页面文本
- 提取指定页面的文本
- 支持页码范围
- 返回分页内容
2. 页面信息
get_page_count - 获取页数
- 返回文档总页数
- 快速统计不读取内容
get_page_info - 获取页面信息
- 页面尺寸(宽高)
- 页面方向
- 页面旋转角度
3. 文档信息
get_metadata - 获取元数据
- 标题、作者、主题
- 创建日期、修改日期
- PDF 版本信息
get_document_info - 获取文档信息
- 文件大小
- 是否加密
- 权限信息
4. 内容分析
analyze_structure - 分析结构
- 识别标题层级
- 提取目录结构
- 检测表格区域
search_text - 搜索文本
- 在文档中搜索关键词
- 返回匹配位置
- 支持正则表达式
MCP 工具列表
| 工具名 | 功能说明 |
|---|---|
extract_text | 提取 PDF 文本内容 |
extract_page_text | 提取指定页面文本 |
get_page_count | 获取文档页数 |
get_page_info | 获取页面信息 |
get_metadata | 获取文档元数据 |
get_document_info | 获取文档信息 |
analyze_structure | 分析文档结构 |
search_text | 搜索文本内容 |
使用场景
1. 文档阅读
- 提取 PDF 内容供 AI 分析
- 快速获取文档摘要
- 搜索特定信息
2. 数据提取
- 从报告中提取数据
- 批量处理 PDF 文档
- 结构化信息提取
3. 文档管理
- 获取文档元数据
- 建立文档索引
- 文档分类整理
4. 内容分析
- 分析文档结构
- 提取关键信息
- 内容比较分析
支持的 PDF 类型
| 类型 | 支持情况 |
|---|---|
| 文本 PDF | ✅ 完全支持 |
| 扫描 PDF | ⚠️ 需 OCR 支持 |
| 加密 PDF | ⚠️ 需要密码 |
| 表单 PDF | ✅ 支持 |
| 图像 PDF | ✅ 支持 |
提取选项
| 选项 | 说明 |
|---|---|
| pages | 指定页面范围 |
| layout | 保留布局格式 |
| tables | 提取表格数据 |
| images | 提取图片描述 |
输出格式
| 格式 | 说明 |
|---|---|
| plain | 纯文本格式 |
| markdown | Markdown 格式 |
| structured | 结构化 JSON |
优势特点
| 优势 | 说明 |
|---|---|
| ✅ 高精度 | 准确提取文本内容 |
| ✅ 保留结构 | 保持文档原有结构 |
| ✅ 快速处理 | 高效处理大型文档 |
| ✅ 多功能 | 提取、分析、搜索一体 |
| ✅ 易集成 | MCP 协议标准接口 |
提示
PDF Helper MCP 服务随 Evol 应用自动启动,无需手动配置。
