PDF助手

PDF Helper MCP Server 提供 PDF 文档处理能力，支持 PDF 读取、文本提取和内容分析。

功能概述

功能模块	描述
文本提取	提取 PDF 中的文本内容
页面信息	获取页面数量、尺寸等信息
内容分析	分析文档结构和内容
元数据	读取文档属性和元数据

核心特性

高精度提取 - 准确提取 PDF 文本内容
结构化输出 - 保留文档的结构信息
多格式支持 - 支持各种 PDF 格式
大文件处理 - 支持处理大型 PDF 文档

核心功能分类

1. 文本提取

extract_text - 提取文本

提取整个文档的文本
按页面提取文本
保留基本格式

extract_page_text - 提取页面文本

提取指定页面的文本
支持页码范围
返回分页内容

2. 页面信息

get_page_count - 获取页数

返回文档总页数
快速统计不读取内容

get_page_info - 获取页面信息

页面尺寸（宽高）
页面方向
页面旋转角度

3. 文档信息

get_metadata - 获取元数据

标题、作者、主题
创建日期、修改日期
PDF 版本信息

get_document_info - 获取文档信息

文件大小
是否加密
权限信息

4. 内容分析

analyze_structure - 分析结构

识别标题层级
提取目录结构
检测表格区域

search_text - 搜索文本

在文档中搜索关键词
返回匹配位置
支持正则表达式

MCP 工具列表

工具名	功能说明
`extract_text`	提取 PDF 文本内容
`extract_page_text`	提取指定页面文本
`get_page_count`	获取文档页数
`get_page_info`	获取页面信息
`get_metadata`	获取文档元数据
`get_document_info`	获取文档信息
`analyze_structure`	分析文档结构
`search_text`	搜索文本内容

使用场景

1. 文档阅读

提取 PDF 内容供 AI 分析
快速获取文档摘要
搜索特定信息

2. 数据提取

从报告中提取数据
批量处理 PDF 文档
结构化信息提取

3. 文档管理

获取文档元数据
建立文档索引
文档分类整理

4. 内容分析

分析文档结构
提取关键信息
内容比较分析

支持的 PDF 类型

类型	支持情况
文本 PDF	✅ 完全支持
扫描 PDF	⚠️ 需 OCR 支持
加密 PDF	⚠️ 需要密码
表单 PDF	✅ 支持
图像 PDF	✅ 支持

提取选项

选项	说明
pages	指定页面范围
layout	保留布局格式
tables	提取表格数据
images	提取图片描述

输出格式

格式	说明
plain	纯文本格式
markdown	Markdown 格式
structured	结构化 JSON

优势特点

优势	说明
✅ 高精度	准确提取文本内容
✅ 保留结构	保持文档原有结构
✅ 快速处理	高效处理大型文档
✅ 多功能	提取、分析、搜索一体
✅ 易集成	MCP 协议标准接口

提示

PDF Helper MCP 服务随 Evol 应用自动启动，无需手动配置。

PDF助手 ​

功能概述 ​

核心特性 ​

核心功能分类 ​

1. 文本提取 ​

2. 页面信息 ​

3. 文档信息 ​

4. 内容分析 ​

MCP 工具列表 ​

使用场景 ​

1. 文档阅读 ​

2. 数据提取 ​

3. 文档管理 ​

4. 内容分析 ​

支持的 PDF 类型 ​

提取选项 ​

输出格式 ​

优势特点 ​

PDF助手

功能概述

核心特性

核心功能分类

1. 文本提取

2. 页面信息

3. 文档信息

4. 内容分析

MCP 工具列表

使用场景

1. 文档阅读

2. 数据提取

3. 文档管理

4. 内容分析

支持的 PDF 类型

提取选项

输出格式

优势特点