Anthropic 推出上下文检索新方法，提高知识检索精确度

aixo 2024-10-09 12:07:32

2024-10-09 12:07:32

在人工智能领域，如何准确地从知识数据库中获取信息一直是个大难题。近日，人工智能公司宣布推出了一种名为 “上下文检索” 的新方法，旨在提高知识检索的精确度。该方法通过在检索时添加更多的上下文信息，帮助 AI 系统提供更准确的答案。

现有的检索增强生成（RAG）系统通常将文档分割成小块进行索引，这样一来，重要的上下文信息可能会被忽略。的解决方案是在每个小块之前加上简短的文档摘要，这些摘要通常不超过100个字。例如，原本的文本片段 “该公司的收入比上一季度增长了3%”，经过上下文处理后变为:“这一片段来自 ACME 公司2023年第二季度的 SEC 文件;上一季度的收入为3.14亿美元，该公司的收入比上一季度增长了3%。” 通过这种方式，表示其新方法可以将信息检索的错误率降低多达49%。如果再结合结果重排序，准确率的提升甚至可以达到67%。

更有趣的是，大学的研究也支持了这种上下文检索的方法。研究人员提出了一种类似的技术，称为 “上下文文档嵌入”（CDE）。他们的方法通过重新组织训练数据，让每个批次都包含相似但难以区分的文档，从而促使模型学习更细微的差别。此外，研究者们还开发了一种双阶段编码器，将邻近文档的信息直接融入嵌入中，这样模型就能够考虑到相对词频和其他上下文线索。

在 “巨量文本嵌入基准”（MTEB）的测试中，CDE 模型在其尺寸类别中取得了最佳成绩。实验还显示，CDE 在金融或医学等领域的小型特定数据集上特别有优势，并在分类、聚类和语义相似性等任务上表现出色。不过，研究者们也指出，目前尚不清楚 CDE 对拥有数十亿文档的大型知识库的影响，关于最佳上下文大小和选择的研究也还有待深入。

划重点:

的 “上下文检索” 方法能降低信息检索错误率多达49%，并可与其他技术结合进一步提升准确性。

大学的 “上下文文档嵌入” 方法显示出在特定领域中的强大优势，能有效改善分类和聚类任务。

未来仍需深入研究如何将这些方法应用于大规模知识库，寻找最佳上下文处理策略。

备注：资讯来源基地

副业搞钱交流群

欢迎大家加入交流群，扫码进入，畅谈AI赚钱心得，共享最新行业动态，发现潜在合作伙伴，迎接未来的赚钱机遇！。

Anthropic

Anthropic 推出上下文检索新方法，提高知识检索精确度

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号