当前位置：首页 > news >正文

[论文阅读] 人工智能 | 真实场景下 RAG 系统的工程实践指南

news 2025/6/28 7:30:48

Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation

作者：Md Toufique Hasan, Muhammad Waseem, Kai-Kristian Kemell, Ayman Asad Khan, Mika Saari, Pekka Abrahamsson
单位：芬兰坦佩雷大学信息技术与通信学院

想象一下：你向AI询问“如何诊断脑部动脉瘤”，它可能滔滔不绝，但如果最新的临床指南更新了治疗方案，AI却不知道——这就是传统大语言模型（LLMs）的痛点：静态知识无法实时更新，容易“胡说八道”（幻觉）。

RAG的出现：检索增强生成（RAG）就像给AI配了一个“外挂知识库”。当AI回答问题时，先从外部数据库检索最新信息，再结合自身“理解”生成答案，完美解决了LLMs“记忆有限”的问题。

现有研究的缺口：尽管RAG概念火热，但多数研究停留在实验室或英文数据集，缺乏真实场景（如医疗、农业）的落地案例，也很少有系统记录开发中的“坑”。就像造了一辆理论上很牛的车，却没试过在复杂路况下开。

100名参与者（含研究者、学生、行业专家）试用系统，回答6个问题：

落地模板：提供五个领域的RAG系统搭建方案，比如农业系统用芬兰语模型Poro-34B，医疗系统用GPT-4。
用户反馈证据：发现“易用性”和“准确性”是用户最关注的点，而“透明度”因领域而异（如网络安全系统为保密不显示来源）。
避坑指南：
- 技术：OCR错误必须清理，文档分块大小200-500字最佳。
- 运营：用SQLite记录用户反馈，定期维护网页爬虫。
- 伦理：医疗系统必须显示文献来源，但安全系统可隐藏。

在这里插入图片描述

领域	系统名称	核心技术	数据规模	LLM模型
市政治理	Kankaanpää City AI	多语言OCR、FAISS	1000+ PDFs（2023-2024）	gpt-4o-mini
网络安全	Disarm RAG	向量嵌入、安全服务器	红/蓝队策略文档	LaMA 2-uncensored
农业	AgriHubi AI Assist	芬兰语优化模型、FAISS	200+芬兰语PDF	Poro-34B
工业研究	FEMMa Oracle	GPT-4o、OpenAI向量存储	约28篇工程文档	GPT-4o
医疗诊断	Assist Doctor	嵌入搜索、Streamlit	临床数据与文献	GPT-4

参与者情况：100名参与者，包括44%研究人员、20%学生等。
评估维度与结果：
- 易用性：各系统表现较好，如Kankaanpää City AI达81.8%好评。
- 准确性：FEMMa Oracle达64.7%“准确”或“高度准确”评价。
- 透明度：存在差异，Disarm RAG因安全原因透明度低。

在真实应用中开发RAG系统面临的主要技术挑战是什么？
- 答案：主要技术挑战包括领域特定模型的必要性，通用模型如GPT-4o在处理领域特定和芬兰语查询时表现不佳；OCR错误影响管道质量，农业和医疗PDF的OCR噪声降低了FAISS检索质量；FAISS在大型语料库（>10k嵌入）中的可扩展性限制，导致延迟增加。
用户对不同领域RAG系统的评估结果呈现出哪些共性与差异？
- 答案：共性是各系统在易用性和答案准确性方面普遍获得正面评价。差异在于透明度和推荐意愿因领域而异，如Disarm RAG因安全敏感性隐藏来源，导致透明度低，但仍有55%的参与者表示会推荐该系统。
该研究为RAG系统的未来发展提出了怎样的方向？
- 答案：研究提出未来需开发评估代理模型，这是一种系统内部模块，可在向用户展示响应前检查AI生成响应的准确性、相关性和完整性，在检测到弱点时触发第二阶段检索或提示重新表述，形成自适应反馈循环，以提高高风险真实应用中RAG系统的可靠性和可信度。