检索增强生成（RAG）的发展与历史综述

引言

检索增强生成（Retrieval-Augmented Generation, RAG）作为一种新兴的自然语言处理范式，近年来受到了学术界和工业界的广泛关注。它巧妙地结合了信息检索和文本生成技术，旨在利用外部知识库来增强生成模型的性能，克服了传统生成模型在知识匮乏、事实性错误等方面的局限性。RAG不仅能够生成更具信息量、更准确、更可信的文本，还在问答系统、文本摘要、代码生成等多个领域展现出巨大的应用潜力，成为推动自然语言处理技术发展的重要驱动力。

本文旨在对RAG的发展历程和关键技术进行全面的综述，系统梳理RAG的起源、演进和未来趋势。首先，我们将追溯RAG的起源与早期发展，从信息检索的早期探索到神经信息检索的兴起，探讨知识库问答（KBQA）对RAG的早期影响，揭示RAG概念的雏形。其次，我们将深入剖析RAG的关键技术发展，重点分析检索模块和生成模块的演进，以及检索与生成的融合策略，并探讨RAG的端到端训练方法，从而理解RAG的核心机制。随后，我们将探讨RAG的变体与应用，针对不同场景下的RAG架构进行分析，例如细粒度RAG、多跳RAG和模块化RAG，并展示RAG在各个领域的具体应用。最后，我们将聚焦RAG面临的挑战与未来发展方向，讨论检索噪声、生成幻觉、计算效率等问题，并展望自适应检索、可解释性RAG、多模态RAG等未来发展趋势。通过对这些关键论点的深入探讨，本文旨在为RAG的研究和应用提供一个全面的视角和有价值的参考。

RAG的起源与早期发展：从信息检索到神经信息检索

信息检索的早期探索为后续RAG的发展奠定了基础，其中布尔模型和向量空间模型是两种具有代表性的经典方法。布尔模型基于集合论和布尔逻辑，通过关键词的“与”、“或”、“非”运算进行检索，简单直观，但无法对检索结果进行排序，且对于复杂查询难以表达用户的真实需求。向量空间模型（VSM）则将文档和查询表示为高维向量，通过计算向量之间的相似度来进行检索，能够对结果进行排序，提升了检索的准确性。然而，即使是向量空间模型也存在局限性。例如，Lei Lei等人在专利分析领域的研究指出，传统的VSM方法应用于专利分析时，会损失句子级别的语义信息，并且面临维度灾难问题。这是因为VSM通常基于词袋模型，忽略了词语之间的顺序和上下文关系，导致语义表达能力不足。此外，随着文档数量和词汇量的增加，向量的维度会急剧增长，导致计算复杂度增加，检索效率降低。因此，尽管这些早期方法在信息检索领域做出了重要贡献，但其固有的局限性促使研究者们不断探索新的检索模型，为后续神经信息检索和RAG的出现奠定了基础。

随着深度学习的兴起，神经信息检索（NIR）逐渐成为研究热点，并深刻影响了RAG的发展。不同于传统的布尔模型和向量空间模型，NIR利用深度神经网络学习查询和文档的复杂表示，从而提升检索的准确性和相关性。深度语义相似度模型（DSSM）通过深度神经网络将查询和文档映射到同一个低维语义空间，然后计算它们之间的相似度，从而进行检索。这种方法能够捕捉查询和文档之间的语义关系，即使它们在字面上不完全匹配。更进一步，卷积深度语义相似度模型（CDSSM）在DSSM的基础上引入了卷积神经网络（CNN），以更好地提取文档中的局部特征。例如，CDSSM使用CNN来学习文档中n-gram的表示，然后将这些n-gram表示组合成文档的整体表示。实验表明，DL模型可以产生更准确的IR结果。例如，在给定的输入查询中，召回率为1.0表示在检测相关案例时具有完全覆盖率，而精度为0.5表示在给定的输入查询中，阳性预测的准确率为50% 。F1分数为0.6667，在召回率和精度之间取得了平衡。平均精度均值（MAP）为0.5426，归一化折现累积增益（NDCG）为0.8896，评估了模型进行排序和优先级排序的能力。前5个建议的精度由Precision@5评估，其值为0.6 。这在用户注意力或推荐空间受到限制的情况下非常重要。

早期的RAG系统可以被视为现代RAG的雏形，它们的核心思想是将检索到的信息直接用于生成任务。这些系统通常依赖于预先训练好的检索模型和生成模型，通过简单的拼接或规则来组合检索结果和生成内容，但往往缺乏端到端的训练机制。例如，在早期的文本摘要任务中，研究人员会先使用TF-IDF等方法检索与输入文档相关的文档片段，然后将这些片段与原始文档一起输入到序列到序列（sequence-to-sequence）模型中生成摘要。一个典型的例子是早期在表格问答（Table QA）任务中的应用，一些模型采用两阶段框架，首先使用信息检索技术从表格语料库中选择相关的表格候选，然后使用阅读器模型从表格候选单元格中定位正确答案。尽管阅读器模型的准确性随着基于Transformer的方法的出现而显著提高，但由于检索器仍然依赖于传统的检索技术，整体性能仍然受到限制。Feifei Pan等人提出了T-RAG模型，该模型将非参数密集向量索引与BART模型进行联合微调，以生成答案token，从而实现端到端的表格问答。这种早期的尝试为后续RAG系统的发展奠定了基础，并指明了端到端训练的重要性，也暴露了早期RAG系统检索模块和生成模块独立训练，无法进行联合优化，导致整体性能受限的问题。

知识库问答（KBQA）对RAG的早期发展产生了重要影响，尤其是在结构化知识的检索与利用方面。早期的RAG系统借鉴了KBQA的思想，尝试将结构化知识库作为外部知识源，以增强生成模型的性能。KBQA的核心在于将自然语言问题转化为对知识库的查询，并从知识库中检索相关信息，这为RAG的检索模块提供了重要的借鉴。例如，Longwell等人探讨了如何将知识图谱三元组检索器与生成式语言模型结合，以生成更精确的SPARQL查询，从而回答自然语言问题。他们的实验表明，通过整合三元组检索模块，生成式语言模型能够生成准确的SPARQL查询，并且在性能上优于现有的端到端KGQA方法，尤其是在与最佳检索器配对时。这种方法直接影响了RAG系统对结构化知识的利用方式，即通过检索与问题相关的知识图谱子图或三元组，并将这些结构化信息融入到生成过程中。尽管早期的RAG可能更多地关注非结构化文本的检索，但KBQA的经验为如何有效地利用结构化知识提供了宝贵的思路和技术基础。

RAG的关键技术发展：检索模块与生成模块的演进

检索增强生成（RAG）系统性能的优劣，很大程度上取决于其检索模块的有效性。早期信息检索系统依赖于TF-IDF等方法，虽然简单高效，却难以捕捉深层语义信息。例如，TF-IDF会将语义相关的“car”和“automobile”视为完全不同的词汇，导致检索结果可能缺乏相关性。为了克服这一局限，研究人员转向基于深度学习的密集向量检索方法，其中基于Transformer的模型，如BERT和Sentence-BERT，展现出显著优势。Sentence-BERT (SBERT) 通过对BERT进行微调，专门用于生成句子的向量表示，从而更好地捕捉句子间的语义相似性。SBERT采用Siamese或Triplet网络结构，在大量句子对或三元组数据上进行训练，使得语义相似的句子在向量空间中距离更近。Reimers和Gurevych提出的SBERT模型在语义文本相似性（STS）任务上取得了超越传统方法的性能，其生成的句子向量可有效应用于RAG系统的检索模块，从而提高检索的准确性和相关性。

生成模块的演进经历了从循环神经网络（RNN）到Transformer的转变，并伴随着预训练语言模型的微调。早期的RAG系统可能依赖RNN及其变体（如LSTM、GRU）来生成文本，但这些模型在处理长序列时存在梯度消失或梯度爆炸的问题，限制了其应用。Transformer架构的出现，特别是像GPT、BART和T5这样的模型，彻底改变了生成模块的设计。这些模型利用自注意力机制并行处理序列，能够更好地捕捉长距离依赖关系，从而生成更连贯、更相关的文本。例如，T5 (Text-to-Text Transfer Transformer) 通过将所有文本处理任务都转化为文本到文本的格式，实现了强大的泛化能力，并在自动文本摘要任务中取得了优秀的成果。A’yuna Itsnaini等人使用预训练的t5-base模型在印尼语新闻数据集上进行微调，获得了相对较高的ROUGE值。此外，预训练语言模型的微调是RAG中生成模块演进的另一个关键方面。通过在大规模语料库上进行预训练，这些模型学习了丰富的语言知识，并在特定任务上进行微调，从而能够快速适应RAG的需求。Alt等人利用预训练语言模型GPT，通过在NYT10数据集上进行微调，提高了关系抽取的性能，尤其是在高召回率水平下。为了更高效地进行微调，研究者们提出了参数高效的微调方法，例如Prefix Tuning，它只优化插入到Transformer层中的连续前缀向量。Zhang等人提出了Adaptive Prefix Tuning (APT)，通过门控机制在细粒度的token级别和粗粒度的层级别上调整前缀，从而实现了更有效和高效的微调。

RAG系统融合检索和生成模块的关键在于如何有效地将检索到的信息融入到生成过程中。常见的融合策略包括简单的拼接、注意力机制以及更复杂的交叉注意力机制。最基础的策略是拼接，即将检索到的文本片段直接添加到输入提示词中，然后输入到生成模型中。然而，这种方法可能无法充分利用检索到的信息，因为生成模型可能会忽略或误解某些关键信息。为了更有效地利用检索到的信息，注意力机制被广泛应用于RAG系统中，它允许生成模型在生成每个token时，动态地关注检索到的文档的不同部分。例如，RAGViz通过可视化生成token在检索文档中的注意力，可以帮助用户理解模型如何利用检索到的信息。更进一步，交叉注意力机制允许检索模块和生成模块进行双向交互，从而更好地对齐检索到的信息和生成目标。Mindful-RAG通过重新设计检索过程，使其更加以意图驱动和上下文感知，从而增强了推理能力，改进了约束识别，并解决了知识图谱的结构限制。Context Awareness Gate (CAG) 是一种动态调整LLM输入提示的机制，它根据用户查询是否需要外部上下文检索来决定是否使用检索到的信息，从而解决检索到不相关信息的问题。CAG的核心数学组件是Vector Candidates方法，它具有统计性、独立于LLM且高度可扩展的特点。

RAG的端到端训练方法旨在优化检索和生成模块，使它们能够协同工作，从而提升整体性能。早期的RAG系统通常独立训练检索和生成模块，这可能导致次优结果。端到端训练通过联合优化两个模块，克服了这一局限性。Lin和Byrne 提出了一种联合训练方案，将可微分的密集段落检索（DPR）与答案生成集成，从而在OK-VQA任务中实现了显著的性能提升。他们发现，与分别训练DPR相比，联合训练能够更好地利用检索到的知识，并减少训练所需的检索文档数量，从而提高了答案质量和计算效率。Glass等也提出了一种新颖的零样本槽填充方法，该方法扩展了密集段落检索，并采用硬负例和鲁棒的训练程序来增强检索增强生成模型，在T-REx和zsRE槽填充数据集上取得了显著改进。此外，Yang等提出了IM-RAG，一种以LLM为中心的方法，通过学习内部独白（IM）将IR系统与LLM集成，以支持多轮RAG，并通过强化学习（RL）优化整个IM过程。

RAG的变体与应用：针对不同场景的RAG架构

为了应对不同场景的需求，研究者们开发了多种RAG变体架构，旨在提升RAG系统的性能和适用性。其中，细粒度RAG着重于提升检索的精确性和生成的相关性。相较于传统RAG方法可能检索到包含大量噪声的信息，细粒度RAG致力于提取更小、更精确的知识片段，如句子或短语，从而提供更具针对性的上下文信息。例如，在开放域表格问答（TableQA）任务中，一种方法通过在检索时强制执行问题和表格嵌入之间更细粒度的交互，解决了传统方法无法捕获表格细粒度特征的局限性。此外，会话级别的RAG（ConvRAG）方法结合了细粒度的检索增强和自检机制，通过会话问题改进器、细粒度检索器和基于自检的响应生成器协同工作，从而更好地理解问题并获取相关信息。

针对需要多步骤推理才能完成的任务，多跳RAG应运而生。与传统RAG方法的单次检索不同，多跳RAG通过多次检索，逐步获取信息，模拟人类的推理过程。在知识库问答中，一个问题可能需要从多个文档中提取信息，并进行逻辑推理才能得出答案。Hartill等人的研究表明，结合大型语言模型生成的推理链和多跳密集检索系统创建的更长上下文，可以显著提升小型语言模型在复杂问答任务中的推理能力。Rationale Ranking (RR)模型通过评估生成的原因和检索到的上下文的相关性和真实性，组合来自不同知识来源的上下文。RATD则利用检索增强的训练数据集训练较小的推理模型，使其能够利用长文本序列中的相关信息。MetaRAG则将检索增强生成过程与元认知相结合，使模型能够监控、评估和规划其响应策略，从而增强其内省推理能力。

为了提高RAG系统的灵活性和可维护性，模块化RAG将系统分解为更小、更易于管理和复用的模块。这种方法允许开发者根据具体需求定制RAG流程，例如替换不同的检索或生成模块，而无需修改整个系统。一种可定制的RAG方法允许交换各种组件，如基础语言模型和相似度评分工具，实验表明模型在与其原生平台的相似度评分配对时，往往表现最佳。Knowledge to Response (K2R)模型将知识融入对话代理的过程分解为生成知识序列和基于知识序列生成最终响应两个步骤，从而减少了知识对话任务中的幻觉，并提高了可解释性和模块化。RA-CM3则是一种检索增强多模态模型，使用预训练的CLIP模型实现检索器，并使用CM3 Transformer架构实现生成器，从而实现了检索和生成文本和图像的混合。

RAG架构凭借其独特的优势，已在多个领域展现出强大的应用潜力。在问答系统领域，RAG通过检索相关文档并结合大型语言模型（LLM）的生成能力，显著提升了答案的准确性和信息量。研究表明，RAG在文档问答应用中表现出色，有效解决了传统QA系统的局限性。除了问答系统，RAG在文本摘要方面也展现出优势，能够根据检索到的信息生成更全面、更准确的摘要。此外，RAG还被应用于代码生成领域，通过检索相关的代码片段和文档，辅助开发者生成高质量的代码。Agent-based Universal RAG (AU-RAG)通过使用代理动态搜索不同的数据池，可以从示例中学习，从而检索和整合来自各种来源的数据，为动态和复杂的信息环境提供了一个强大的解决方案。

RAG的挑战与未来发展方向

RAG在发展过程中面临着诸多挑战，其中检索噪声、生成幻觉以及计算效率是亟待解决的关键问题。检索噪声表现为检索模块返回大量与问题无关或低质量的信息，这些冗余信息会干扰生成模块的判断，从而降低生成结果的准确性和相关性。更严重的是，生成幻觉会导致模型在缺乏充分证据支持的情况下，生成不真实甚至与事实相悖的内容。尤其在专业性较强的领域，如医疗健康，这种幻觉可能带来潜在风险。例如，Jing Miao等人针对大型语言模型（LLMs）在医疗应用中易产生幻觉的问题，构建了结合RAG系统的定制ChatGPT模型，并基于慢性肾脏疾病的KDIGO 2023指南进行训练，验证了其在提供专业、准确医疗建议方面的潜力。此外，RAG的计算效率直接影响其应用范围。大规模数据处理对检索和生成过程提出了高计算资源需求，限制了RAG在实际场景中的部署和推广。

为了提高RAG的性能，研究主要集中在改进检索模块、优化生成模块以及增强融合策略三个方面。检索模块的改进旨在提升上下文信息的检索精度，从最初的TF-IDF到基于Transformer的密集向量检索（如BERT、Sentence-BERT）的演进，使检索过程能更好地理解语义信息。生成模块的优化则侧重于提高生成文本的质量和相关性，通过微调预训练语言模型（如GPT、BART、T5）使其更适应特定任务和领域，是一种有效手段。例如，Kang等人在心理治疗任务中，通过领域相关的辅助指令和适配微调方法，提升了预训练语言模型在该领域的表现。更重要的是，如何有效融合检索信息至关重要。Murugan等人的研究表明，将上下文感知的GPT-4与RAG结合，显著提高了AI助手在解释药物基因组学（PGx）测试结果方面的效用，RAG整合领域特定的CPIC数据，包括最新的文献，从而提供更准确和相关的答案。

展望未来，RAG的发展将呈现出多元化的趋势。自适应检索是重要方向之一，它旨在使RAG系统能够根据不同的查询和上下文动态调整检索策略，例如，根据查询的复杂程度调整检索范围或使用不同的检索算法，从而提高检索的准确性和效率。此外，可解释性RAG致力于提高系统的透明度，使用户能够理解检索结果如何影响生成过程，以及模型做出特定决策的原因。这可以通过可视化检索结果、提供检索证据的摘要或使用注意力机制来突出显示关键信息来实现，从而增强用户对RAG系统的信任。值得关注的是，多模态RAG正逐渐成为研究热点，它将RAG扩展到文本以外的其他模态，例如图像、音频和视频。Chen等人提出了Multimodal Retrieval-Augmented Transformer (MuRAG)，它通过访问外部非参数多模态记忆来增强语言生成。MuRAG在大型图像-文本和纯文本语料库上进行预训练，使用联合对比和生成损失。在需要检索和推理图像和文本以回答给定查询的两个不同数据集WebQA和MultimodalQA上进行的实验表明，MuRAG实现了最先进的精度，在干扰和完整wiki设置下，均比现有模型高出10-20% 。Caffagni等人的Wiki-LLaVA旨在整合多模态文档的外部知识源，通过分层检索管道访问该知识源，从而增强大型语言模型（LLM）的能力，使其能够处理纯文本模态以外的任务。相关段落从外部知识源中检索出来，并用作LLM的附加上下文，从而提高生成对话的有效性和准确性。

结论

综上所述，本文回顾了检索增强生成（RAG）从早期信息检索方法到如今融合深度学习的先进架构的演进历程。从布尔模型、向量空间模型的局限性，到神经信息检索的兴起，再到Transformer模型在检索和生成模块中的广泛应用，RAG的发展得益于信息检索和自然语言处理技术的不断进步。我们探讨了RAG的关键技术，包括检索模块的改进、生成模块的演进以及检索与生成的融合策略，并分析了针对不同场景的RAG变体，例如细粒度RAG、多跳RAG和模块化RAG，以及RAG在问答系统、文本摘要、代码生成等领域的应用。尽管RAG在提升生成模型的性能方面取得了显著进展，但仍然面临着检索噪声、生成幻觉和计算效率等挑战。

未来，RAG的研究方向将更加多元化和智能化。自适应检索、可解释性RAG和多模态RAG等新兴方向，有望进一步提升RAG的性能和应用范围。我们期待看到RAG能够更好地理解用户意图，更有效地利用外部知识，生成更准确、更可信、更具创造性的文本。随着技术的不断发展，RAG有望成为连接人类知识与人工智能的重要桥梁，在各个领域发挥更大的作用，推动自然语言处理技术迈向新的高度。

References

[1] Lei Lei, Jiaju Qi, K. Zheng, Patent Analytics Based on Feature Vector Space Model: A Case of IoT, IEEE Access, 2019, 7, 45705-45715.

[2] Simple Sharma, Supriya P. Panda, Seema Verma, Evaluating Semantic and Personalized Information Retrieval with Deep Learning Models: A Performance Metrics Analysis, Tuijin Jishu/Journal of Propulsion Technology, 2023.

[3] Xiaodong Liu, Jianfeng Gao, Xiaodong He, L. Deng, Kevin Duh, Ye-Yi Wang, Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval, null, 2015, 912-921.

[4] Feifei Pan, Mustafa Canim, Michael R. Glass, A. Gliozzo, J. Hendler, End-to-End Table Question Answering via Retrieval-Augmented Generation, ArXiv, 2022, abs/2203.16714.

[5] Jack Longwell, Mahdiyar Ali Akbar Alavi, Fattane Zarrinkalam, F. Ensan, Triple Augmented Generative Language Models for SPARQL Query Generation from Natural Language Questions, Proceedings of the 2024 Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, 2024.

[6] Qurrota A’yuna Itsnaini, Mardhiya Hayaty, Andriyan Dwi Putra, N. Jabari, Abstractive Text Summarization using Pre-Trained Language Model "Text-to-Text Transfer Transformer (T5)", ILKOM Jurnal Ilmiah, 2023.

[7] Christoph Alt, Marc Hübner, Leonhard Hennig, Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction, ArXiv, 2019, abs/1906.08646.

[8] Zhenru Zhang, Chuanqi Tan, Haiyang Xu, Chengyu Wang, Jun Huang, Songfang Huang, Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning, null, 2023, 1239-1248.

[9] Tevin Wang, Jingyuan He, Chenyan Xiong, RAGViz: Diagnose and Visualize Retrieval-Augmented Generation, ArXiv, 2024, abs/2411.01751.

[10] Garima Agrawal, Tharindu Kumarage, Zeyad Alghamdi, Huanmin Liu, Mindful-RAG: A Study of Points of Failure in Retrieval Augmented Generation, 2024 2nd International Conference on Foundation and Large Language Models (FLLM), 2024, 607-611.

[11] Mohammad Hassan Heydari, Arshia Hemmat, Erfan Naman, Afsaneh Fatemi, Context Awareness Gate for Retrieval Augmented Generation, 2024 15th International Conference on Information and Knowledge Technology (IKT), 2024, 260-264.

[12] Weizhe Lin, B. Byrne, Retrieval Augmented Visual Question Answering with Outside Knowledge, ArXiv, 2022, abs/2210.03809.

[13] Michael R. Glass, Gaetano Rossiello, Md. Faisal Mahbub Chowdhury, A. Gliozzo, Robust Retrieval Augmented Generation for Zero-shot Slot Filling, null, 2021, 1939-1949.

[14] Diji Yang, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang, Jie Yang, Yi Zhang, IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues, Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2024.

[15] Weizhe Lin, Rexhina Blloshmi, B. Byrne, A. de Gispert, Gonzalo Iglesias, LI-RAGE: Late Interaction Retrieval Augmented Generation with Explicit Signals for Open-Domain Table Question Answering, null, 2023, 1557-1566.

[16] Linhao Ye, Zhikai Lei, Jia-Peng Yin, Qin Chen, Jie Zhou, Liang He, Boosting Conversational Question Answering with Fine-Grained Retrieval-Augmentation and Self-Check, Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2024.

[17] Tim Hartill, Diana Benavides-Prado, M. Witbrock, Patricia J. Riddle, Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval, ArXiv, 2023, abs/2308.04711.

[18] Yujia Zhou, Zheng Liu, Jiajie Jin, Jian-Yun Nie, Zhicheng Dou, Metacognitive Retrieval-Augmented Large Language Models, Proceedings of the ACM Web Conference 2024, 2024.

[19] Kieran Pichai, A Retrieval-Augmented Generation Based Large Language Model Benchmarked On a Novel Dataset, Journal of Student Research, 2023.

[20] Leonard Adolphs, Kurt Shuster, Jack Urbanek, Arthur Szlam, J. Weston, Reason first, then respond: Modular Generation for Knowledge-infused Dialogue, ArXiv, 2021, abs/2111.05204.

[21] Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, J. Leskovec, Percy Liang, M. Lewis, Luke Zettlemoyer, Wen-tau Yih, Retrieval-Augmented Multimodal Language Modeling, ArXiv, 2023, abs/2211.12561.

[22] Kurnia Muludi, Kaira Milani Fitria, Joko Triloka, Sutedi, Retrieval-Augmented Generation Approach: Document Question Answering using Large Language Model, International Journal of Advanced Computer Science and Applications, 2024.

[23] Jisoo Jang, Wen-Syan Li, AU-RAG: Agent-based Universal Retrieval Augmented Generation, Proceedings of the 2024 Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, 2024.

[24] Jing Miao, C. Thongprayoon, S. Suppadungsuk, Oscar A. Garcia Valencia, W. Cheungpasitporn, Integrating Retrieval-Augmented Generation with Large Language Models in Nephrology: Advancing Practical Applications, Medicina, 2024, 60.

[25] Cheng Kang, Daniel Novak, Kateřina Urbanová, Yuqing Cheng, Yong Hu, Domain-Specific Improvement on Psychotherapy Chatbot Using Assistant, 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), 2024, 351-355.

[26] M. Murugan, Bo Yuan, E. Venner, Christie M. Ballantyne, Katherine M Robinson, James C. Coons, Liwen Wang, P. Empey, R. A. Gibbs, Empowering Personalized Pharmacogenomics with Generative AI Solutions, Journal of the American Medical Informatics Association : JAMIA, 2024.

[27] Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen, MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text, ArXiv, 2022, abs/2210.02928.

[28] Davide Caffagni, Federico Cocchi, Nicholas Moratelli, Sara Sarto, Marcella Cornia, L. Baraldi, R. Cucchiara, Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs, 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2024, 1818-1826.