Dify 文档提取器节点完全指南:从零基础到实战
文档提取器节点是 Dify 工作流中的”文件翻译官”,它能把用户上传的 PDF、Word、TXT 等文档转换成 AI 能读懂的纯文本 。
想象一下:你上传了一份 PDF 合同想让 AI 帮你分析,但 AI 大模型(如 GPT、Claude)不能直接打开 PDF 文件。这时候就需要文档提取器节点先”阅读” PDF,把里面的文字提取出来,再传给 AI 处理。
核心作用:填补”文件上传”与”AI 理解”之间的鸿沟 。

一. 支持哪些文件格式?
文档提取器支持绝大多数常见的文本文档格式 :
| 文件类型 | 格式示例 | 说明 |
|---|---|---|
| 纯文本 | .txt, .md, .html | 直接读取内容 |
| Word 文档 | .docx (推荐), .doc | DOCX 直接解析;DOC 需要配置 Unstructured API |
| PDF 文档 | .pdf | 使用 pypdfium2 引擎提取文字 |
| 表格 | .xlsx, .xls, .csv | 自动转换为 Markdown 表格格式 |
| 演示文稿 | .pptx, .ppt | PPT 需要 Unstructured API |
| 邮件 | .eml, .msg | 提取邮件正文内容 |
| 其他 | .epub, .json, .yaml, .vtt | 电子书、数据文件、字幕文件等 |
⚠️ 不支持:图片、音频、视频等二进制文件(这些需要其他处理方式)[ ^6^]
二. 参数配置
2.1 准备输入(前提条件)
在“文档提取器”之前,你的工作流中必须有一个文件上传的动作。
- 通常是在“开始节点”中开启“文件上传”功能。
- 或者由前面的节点产生了一个文件类型的变量。
2.2 选择变量
在文档提取器节点的配置面板中:
- 输入变量: 点击选择框,找到你上传的文件变量(通常显示为
sys.files或你在开始节点定义的变量名)。
2.3 设置输出
该节点会自动将提取出的内容存放在一个名为 text 的变量中。你可以在后续的节点(比如大语言模型 LLM)中,通过 {{变量名.text}} 来引用这些文字。
💡 重要提示:如果输入是多文件(Array),输出是数组格式,通常需要配合列表操作节点(List Operator)进行后续处理 。、
三. 实战案例
做一个“PDF 摘要生成器”
- 开始节点: 开启“文件上传”功能,限制格式为 PDF。
- 添加“文档提取器”:
- 输入: 选择刚才上传的文件。
- 添加“LLM”节点:
- 提示词: “以下是一段从文档中提取的内容,请帮我总结核心要点:
{{文档提取器.text}}”。
- 提示词: “以下是一段从文档中提取的内容,请帮我总结核心要点:
- 最后输出: 将 LLM 的总结结果返回给用户。
四. 注意事项
- 文件大小限制: 提取器处理超大文件(如几百页的 PDF)时,可能会触及 AI 模型的上下文长度限制。如果文件太长,建议先用“分段”处理。
- 图片处理: 普通的文档提取器主要针对文字。如果 PDF 里全是图片(扫描件),它可能提取不出内容,这时候需要带有 OCR(光学字符识别)能力的模型配合。
- 表格提取: 复杂的表格在转化为纯文本后,格式可能会稍微错乱,建议在后续 LLM 的提示词中加入“请仔细识别文本中的表格数据”来加强理解。
文档提取器 = 文件转文字工具。 只要涉及“让 AI 读文件”的场景,它几乎是必经之路。从简单的单文件问答到复杂的多文件混合处理,文档提取器都是构建文件交互型 AI 应用不可或缺的基础组件 。
© 文章版权归白小菌所有,🫰欢迎转发分享。未经允许请勿抄袭转载。











