Dify 文档提取器节点完全指南：从零基础到实战

文档提取器节点是 Dify 工作流中的”文件翻译官”，它能把用户上传的 PDF、Word、TXT 等文档转换成 AI 能读懂的纯文本。

想象一下：你上传了一份 PDF 合同想让 AI 帮你分析，但 AI 大模型（如 GPT、Claude）不能直接打开 PDF 文件。这时候就需要文档提取器节点先”阅读” PDF，把里面的文字提取出来，再传给 AI 处理。

核心作用：填补”文件上传”与”AI 理解”之间的鸿沟。

一. 支持哪些文件格式？

文档提取器支持绝大多数常见的文本文档格式：

文件类型	格式示例	说明
纯文本	`.txt`, `.md`, `.html`	直接读取内容
Word 文档	`.docx` (推荐), `.doc`	DOCX 直接解析；DOC 需要配置 Unstructured API
PDF 文档	`.pdf`	使用 pypdfium2 引擎提取文字
表格	`.xlsx`, `.xls`, `.csv`	自动转换为 Markdown 表格格式
演示文稿	`.pptx`, `.ppt`	PPT 需要 Unstructured API
邮件	`.eml`, `.msg`	提取邮件正文内容
其他	`.epub`, `.json`, `.yaml`, `.vtt`	电子书、数据文件、字幕文件等

⚠️ 不支持：图片、音频、视频等二进制文件（这些需要其他处理方式）[ ^6^]

在“文档提取器”之前，你的工作流中必须有一个文件上传的动作。

在文档提取器节点的配置面板中：

该节点会自动将提取出的内容存放在一个名为 text 的变量中。你可以在后续的节点（比如大语言模型 LLM）中，通过 {{变量名.text}} 来引用这些文字。

💡 重要提示：如果输入是多文件（Array），输出是数组格式，通常需要配合列表操作节点（List Operator）进行后续处理。、

做一个“PDF 摘要生成器”

文件大小限制： 提取器处理超大文件（如几百页的 PDF）时，可能会触及 AI 模型的上下文长度限制。如果文件太长，建议先用“分段”处理。
图片处理： 普通的文档提取器主要针对文字。如果 PDF 里全是图片（扫描件），它可能提取不出内容，这时候需要带有 OCR（光学字符识别）能力的模型配合。
表格提取： 复杂的表格在转化为纯文本后，格式可能会稍微错乱，建议在后续 LLM 的提示词中加入“请仔细识别文本中的表格数据”来加强理解。

文档提取器 = 文件转文字工具。 只要涉及“让 AI 读文件”的场景，它几乎是必经之路。从简单的单文件问答到复杂的多文件混合处理，文档提取器都是构建文件交互型 AI 应用不可或缺的基础组件。