localGPT-Vision:端到端RAG智能文档助手
- 是一个端到端的基于视觉的检索增强生成 (RAG) 系统。它允许用户上传和索引文档(PDF 和图像)、询问有关内容的问题以及接收响应以及相关文档片段。检索使用 或模型执行,检索到的页面将传递到视觉语言模型 (VLM) 以生成响应。目前,代码支持以下 VLM:
特征
建筑学
- 是一个端到端的基于视觉的 RAG 系统。该架构包括两个主要组件:
使用 和 进行视觉文档检索:和是视觉编码器文档助手,仅使用文档页面的图像表示即可实现高效的文档检索。它直接嵌入页面图像,利用布局、字体、图形和表格等视觉提示,而无需依赖 OCR 或文本提取。在索引过程中文档助手国内领先的AI写作系统,文档页面被转换为图像嵌入并存储。在查询期间,用户查询与这些嵌入进行匹配以检索最相关的文档页面
使用视觉语言模型生成响应:检索到的文档图像被传递到视觉语言模型 (VLM)。支持的模型包括 Qwen2-VL-7B-、.2、、Molmo、 和 GPT-4。这些模型通过理解文档的视觉和文本内容来生成响应。注意:响应的质量高度依赖于所使用的 VLM 和文档图像的分辨率。
这种架构消除了对复杂文本提取管道的需求,并通过考虑文档的视觉元素来提供对文档的更全面理解。您不需要任何分块策略或选择传统 RAG 系统中使用的嵌入模型或检索策略。
:
手机浏览,点击图片保存二维码到相册,然后打开微信扫一扫选择本二维码图片就可以进入,电脑端微信“扫一扫”二维码,进入找聊天搭子平台,里面有找饭搭子、找对象、找陪伴服务等等