Dify 文档提取器节点完全指南:从零基础到实战

文档提取器节点是 Dify 工作流中的”文件翻译官”,它能把用户上传的 PDF、Word、TXT 等文档转换成 AI 能读懂的纯文本 。

想象一下:你上传了一份 PDF 合同想让 AI 帮你分析,但 AI 大模型(如 GPT、Claude)不能直接打开 PDF 文件。这时候就需要文档提取器节点先”阅读” PDF,把里面的文字提取出来,再传给 AI 处理。

核心作用:填补”文件上传”与”AI 理解”之间的鸿沟 。

8984a3

一. 支持哪些文件格式?

文档提取器支持绝大多数常见的文本文档格式 :

文件类型格式示例说明
纯文本.txt, .md, .html直接读取内容
Word 文档.docx (推荐), .docDOCX 直接解析;DOC 需要配置 Unstructured API
PDF 文档.pdf使用 pypdfium2 引擎提取文字
表格.xlsx, .xls, .csv自动转换为 Markdown 表格格式
演示文稿.pptx, .pptPPT 需要 Unstructured API
邮件.eml, .msg提取邮件正文内容
其他.epub, .json, .yaml, .vtt电子书、数据文件、字幕文件等

⚠️ 不支持:图片、音频、视频等二进制文件(这些需要其他处理方式)[ ^6^]

二. 参数配置

2.1 准备输入(前提条件)

在“文档提取器”之前,你的工作流中必须有一个文件上传的动作。

  • 通常是在“开始节点”中开启“文件上传”功能。
  • 或者由前面的节点产生了一个文件类型的变量。

2.2 选择变量

在文档提取器节点的配置面板中:

  • 输入变量: 点击选择框,找到你上传的文件变量(通常显示为 sys.files 或你在开始节点定义的变量名)。

2.3 设置输出

该节点会自动将提取出的内容存放在一个名为 text 的变量中。你可以在后续的节点(比如大语言模型 LLM)中,通过 {{变量名.text}} 来引用这些文字。

💡 重要提示:如果输入是多文件(Array),输出是数组格式,通常需要配合列表操作节点(List Operator)进行后续处理 。、

三. 实战案例

做一个“PDF 摘要生成器”

  1. 开始节点: 开启“文件上传”功能,限制格式为 PDF。
  2. 添加“文档提取器”:
    • 输入: 选择刚才上传的文件。
  3. 添加“LLM”节点:
    • 提示词: “以下是一段从文档中提取的内容,请帮我总结核心要点:{{文档提取器.text}}”。
  4. 最后输出: 将 LLM 的总结结果返回给用户。

四. 注意事项

  • 文件大小限制: 提取器处理超大文件(如几百页的 PDF)时,可能会触及 AI 模型的上下文长度限制。如果文件太长,建议先用“分段”处理。
  • 图片处理: 普通的文档提取器主要针对文字。如果 PDF 里全是图片(扫描件),它可能提取不出内容,这时候需要带有 OCR(光学字符识别)能力的模型配合。
  • 表格提取: 复杂的表格在转化为纯文本后,格式可能会稍微错乱,建议在后续 LLM 的提示词中加入“请仔细识别文本中的表格数据”来加强理解。

文档提取器 = 文件转文字工具。 只要涉及“让 AI 读文件”的场景,它几乎是必经之路。从简单的单文件问答到复杂的多文件混合处理,文档提取器都是构建文件交互型 AI 应用不可或缺的基础组件 。

© 文章版权归白小菌所有,🫰欢迎转发分享。未经允许请勿抄袭转载。

订阅评论
提醒
guest
0 评论
最新
最旧 最多投票
内联反馈
查看所有评论

AI 小菌
现代响应式侧边栏
快捷菜单