Linuxword Global
当前位置: VPS测评 > 阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统

阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统,ViDoRAG,ViDoRAG在GPT-4o上准确率达到了 79.4%,比传统RAG提高了10%以上

GlGaqXxa0AABjp_
它可以在一堆包含图片文档中找到,比如“这个产品的最高温度是多少?”或者“这篇文章主要讲了什么?”,
ViDoRAG能看文字、看图片、看图表,核心是它基于高斯混合模型的多模态混合检索策略,及多智能体迭代推理机制,来提升模型在视觉丰富文档上的检索和推理能力
多智能体协作,
1、Seeker,负责快速浏览文档,找出可能相关的图片或页面
2、Inspector,仔细检查Seeker找到的内容,判断是否真的有用,提出进一步建议
3、Answer Agent,根据Inspector的结果给出准确的答案
此外还开源了一个专注于大规模数据文档集合下的检索和复杂推理的数据集,ViDoSeek

GlGbtB4WoAAybn9
用来测试ViDoRAG,里面包含文本、图表、表格、布局等各种各样的问题和对应的答案,每个问题都有唯一的答案,并且指明了答案在文档的哪一页
各个模块像检索器、推理代理和生成器都是独立设计的,可以根据需要进行替换或修改

「梦想一旦被付诸行动,就会变得神圣,如果觉得我的文章对您有用,请帮助本站成长」

赞(0) 打赏
一分也是爱

支付宝扫一扫打赏

微信扫一扫打赏

上一篇:

下一篇:

相关推荐

博客简介

本站CDN采用VmShell免费提供离中国大陆最近的香港CMI高速网络做支撑,ToToTel打造全球最快速的边沿网络支撑服务,具体详情请见 :https://vmshell.com/ 以及 https://tototel.com/,网站所有的文件和内容禁止大陆网站搬迁复制,谢谢,VPS营销投稿邮箱: [email protected],我们免费帮大家发布,不收取任何费用,请提供完整测试文稿!

精彩评论

友情链接

他们同样是一群网虫,却不是每天泡在网上游走在淘宝和网游之间、刷着本来就快要透支的信用卡。他们或许没有踏出国门一步,但同学却不局限在一国一校,而是遍及全球!申请交换友链

站点统计

  • 文章总数: 2833 篇
  • 草稿数目: 31 篇
  • 分类数目: 6 个
  • 独立页面: 0 个
  • 评论总数: 2 条
  • 链接总数: 0 个
  • 标签总数: 27552 个
  • 注册用户: 139 人
  • 访问总量: 8,648,857 次
  • 最近更新: 2025年5月12日