阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统

2025-03-04 分类：VPS测评作者：Linux网站管理员阅读（1133）

阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统,ViDoRAG,ViDoRAG在GPT-4o上准确率达到了 79.4%,比传统RAG提高了10%以上

GlGaqXxa0AABjp_
它可以在一堆包含图片文档中找到,比如“这个产品的最高温度是多少？”或者“这篇文章主要讲了什么？”,
ViDoRAG能看文字、看图片、看图表,核心是它基于高斯混合模型的多模态混合检索策略,及多智能体迭代推理机制,来提升模型在视觉丰富文档上的检索和推理能力
多智能体协作,
1、Seeker,负责快速浏览文档,找出可能相关的图片或页面
2、Inspector,仔细检查Seeker找到的内容,判断是否真的有用,提出进一步建议
3、Answer Agent,根据Inspector的结果给出准确的答案
此外还开源了一个专注于大规模数据文档集合下的检索和复杂推理的数据集,ViDoSeek

GlGbtB4WoAAybn9
用来测试ViDoRAG,里面包含文本、图表、表格、布局等各种各样的问题和对应的答案,每个问题都有唯一的答案,并且指明了答案在文档的哪一页
各个模块像检索器、推理代理和生成器都是独立设计的,可以根据需要进行替换或修改

「梦想一旦被付诸行动，就会变得神圣，如果觉得我的文章对您有用，请帮助本站成长」

赞(0) *** 在线联系博主***

标签：

1 Answer Agent Inspector Seeker ViDoRAG ViDoRAG在GPT-4o上准确率达到了 79.4%ViDoRAG能看文字 ViDoSeek 用来测试ViDoRAG 仔细检查Seeker找到的内容判断是否真的有用及多智能体迭代推理机制可以根据需要进行替换或修改图表布局等各种各样的问题和对应的答案并且指明了答案在文档的哪一页各个模块像检索器找出可能相关的图片或页面 2 推理代理和生成器都是独立设计的提出进一步建议 3 来提升模型在视觉丰富文档上的检索和推理能力多智能体协作核心是它基于高斯混合模型的多模态混合检索策略根据Inspector的结果给出准确的答案此外还开源了一个专注于大规模数据文档集合下的检索和复杂推理的数据集每个问题都有唯一的答案比传统RAG提高了10%以上它可以在一堆包含图片文档中找到比如“这个产品的最高温度是多少？”或者“这篇文章主要讲了什么？”看图片看图表表格负责快速浏览文档通义实验室里面包含文本阿里巴巴阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统

上一篇：白宫会议:卢比奥终于活成了自己最讨厌的样子

下一篇：日本,大久保公园那帮站街卖的地雷妹

博客简介

本站CDN采用VmShell免费提供离中国大陆最近的香港CMI高速网络做支撑,ToToTel打造全球最快速的边沿网络支撑服务，具体详情请见 :https://vmshell.com/ 以及 https://tototel.com/,网站所有的文件和内容禁止大陆网站搬迁复制,谢谢,VPS营销投稿邮箱: admin@linuxxword.com，我们免费帮大家发布，不收取任何费用,请提供完整测试文稿!

sexcam（2个月前 (04-20)）
WOW just what I was searching for. Came here b...
评：深度解析《让子弹飞》
张麻子是杂种（6个月前 (12-09)）
从有人以来就没有比张麻子更邪恶张口闭口为人民，害死几千万人还为人民，为自己的皇位还差不多，...
评：深度解析《让子弹飞》
al2359（3年前 (2023-02-06)）
求科学离线插件，谢谢！34401355@qq.com
评：改版梅林固件安装SS【shadowsocks】科学上网插件教程
al2359（3年前 (2023-02-06)）
求科学离线插件，谢谢！！！
评：改版梅林固件安装SS【shadowsocks】科学上网插件教程

文章总数： 3467 篇
草稿数目： 8 篇
分类数目： 9 个
独立页面： 0 个
评论总数： 4 条
链接总数： 0 个
标签总数： 63623 个
注册用户： 139 人
访问总量： 8,648,075 次
最近更新： 2026年6月17日

阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统

相关推荐

博客简介

最近更新

随机文章

热门标签

精彩评论

关于VmShell INC

站点统计