动手学RAG：Part1 什么是RAG？

作者: Coggle数据科学分类: 计算机技术发布时间: 2024-03-07 00:01:23 浏览:21860 次

利休_:
RAG提升准确性和时效性听懂了，提升安全性没搞懂，最终不还是要把知识库原文当成提示词提交给大语言模型，怎么保证数据的安全呢？

【回复】回复 @可可爱爱程序媛 :本地使用大模型就有安全性了
【回复】首先可以只给部分信息给大模型，其次通过本地部署大模型（chatglgm）搭配rag可以就很容易超过chagtpt（没有rag）的效果
【回复】回复 @tonyyi007 :复杂的只能人工
无名天剑:
你有数据集的情况下为啥不直接fine tuning？

AI头脑风暴:
夸夸：能够将晦涩难懂的文字，提炼成条理清晰、重点突出的框架，真是一件了不起的事！关键词：#检索增强生成# #大模型# #幻觉# #时效性# #数据安全# 总结：检索增强生成（RAG）是一种新兴技术，旨在缓解大模型在幻觉、时效性、数据安全等方面的缺陷。通过整合检索机制，RAG能够利用外部知识库中的信息，从而提升模型的推理能力和对事实的把握度。一、RAG技术的概述 - RAG通过检索外部知识库中的相关文档，补充模型训练数据，提高模型对事实的把握度。 - RAG采用端到端训练的方式，将检索和生成任务有机结合，有效降低了模型训练和部署的复杂度。 - RAG具有良好的可扩展性，可以轻松地与不同的预训练语言模型和知识库集成，提高模型的泛化能力。二、RAG技术的应用 - RAG可应用于文本摘要、问答生成、对话生成等自然语言处理任务，提高模型的推理质量和准确性。 - RAG在信息抽取、知识图谱构建等领域也具有广阔的应用前景，能够帮助用户从海量文本中高效提取所需信息。 - RAG还可以用于构建智能问答系统、知识库搜索引擎等实际应用，为用户提供更加便捷、准确的信息获取服务。三、RAG技术的展望 - RAG技术仍处于快速发展阶段，未来有望取得更多突破和创新。 - 随着预训练语言模型和知识库的不断完善，RAG技术的性能也将持续提升。 - RAG技术有望在自然语言处理领域发挥越来越重要的作用，成为构建下一代智能系统的关键技术之一。 - Powered by https://brainstorm.cool 下一代 AI 搜索引擎

AI视频小助理:
一、增强检索生成(RAG)的学习脉络，包括知识库的构建、文本提取、划分文本块、文本嵌入模型等步骤，以克服大语言模型的局限性。 00:21 - RAG是增强检索生成，可用于克服大语言模型的局限性 02:41 - RAG使用任意文本构建知识库，通过文本提取和划分块进行处理 04:06 - RAG使用文本嵌入模型将文本编码为向量，用于回答问题二、基于知识库的推荐引擎(RNG)技术，通过将用户提问与知识库中的文档进行相似度计算，找到最相关的段落作为背景知识，构建提示词，从而提高大模型回答的准确性。 04:15 - 通过计算相似度从知识库中找到相关段落作为背景知识 05:26 - 使用REG技术结合代言模型和检索系统，提高大模型的准确性 07:20 - 数据集为汽车相关问题，包含300多页PDF文件三、如何使用RAG和知识库来回答问题，包括数据集的读取、文本索引和检索、多路召回和重排、意图识别和文档关键词提取等步骤。 08:33 - 学习过程需要结合问题和PDF知识库找到对应回答 10:53 - 大模型局限性：依赖于提示词，幻觉时效性和数据安全问题 12:44 - 基于知识库的问答：图数据库存储三元组，实体识别和属性结合得到回答，适用于百度百科和维基百科四、RGRAG在信息抽取方面的作用和优劣，以及其在知识管理和大模型中的应用和优势，并提供了RAG的提问模板和提示词。 12:45 - RAG可以提高大模型生成的准确性和时效性 13:23 - RAG可以通过外部知识库解决幻觉问题 15:08 - RAG可以和已有的一些知识库的问答系统结合使用五、RAG技术，相比于SFT，RAG具有轻量级和高效的优点，可用于知识库的更新和模型的精度提升。同时，视频还介绍了RAG技术的相关技术和实现步骤。 17:01 - RAG和supers的FIGHTIN相比，RAG更轻量级，更适合外部知识库更新。 18:26 - RAG实现步骤依赖于信息检索和答案生成，涉及意图识别、相似度检索、文本嵌入等技术。 21:09 - 想要学习RAG技术的读者可以在视频详情中获取学习资料。 --本内容由AI视频小助理生成，关注解锁AI助理，由@西瓜柚子葡萄树召唤发送

小-四儿:
我想用rag的一个很重要的原因是目前所有的大语言模型都是通用型，对于某些领域的精细知识它是不知道的。那么我就想得到一个有我这个领域知识的domain specific的LLM。直接从头训练费时费力还肯定没有市面上的LLM好，所以我学rag和fine tune。我觉得这在我这个领域还鲜有人探索。

zhangzxl126:
结果，三个关于汽车方面的回答都是错的

【回复】有可能的，但我们知识基于给定的资料回答哈~
骚年的祖先:
直接拿文档去训练如何？没有对话型的

【回复】回复 @骚年的祖先 :方案都差不多，查重的相似度计算方法应该不是bert，应该有其他的方法。各个大模型我没仔细对比，但glm api的效果应该比较好，价格也比较低。如果本地部署模型，简单的任务6b可以。
【回复】回复 @Coggle数据科学 :有几个需求，多文档的查重，多文档的知识库及问答。大佬什么方案好？chatglm 千问 chatchat 这些哪个表现好一点，效果还可以您感觉需要多少规模费效比最好？70b 13b 6b ？
yyqxxxxzz:
请问一下up主，如果我想用rag让大模型学习我们自己发明的一种编程语言可以吗

聖者一屋:
我们尝试放入用户条款或者法律文档，发现用户的投诉问题根本匹配不上正确的相关条款。[酸了] 不知道是什么问题？这部分需要加入大模型的理解能力吗

【回复】回复 @聖者一屋 :我理解这不是一个rag能解决的问题除非要重新训练一个匹配模型
【回复】回复 @Coggle数据科学 :了解了，谢谢指点
【回复】回复 @Coggle数据科学 : 主要是解决方案里需要正确法律法条的引用，所以才考虑RAG来实现，但是目前看了很多RAG的攻略，复现之后都无法找到正确法条。
俗尘里的胡言乱语:
非常NICE，上个月没赶上，没想到出视频了！！！

罗氏集团兽人苦工:
这种效果不太好，不智能。特别是向量匹配的时候错误概率极大，除非你的问题在原文中有一模一样的句子的问题这样匹配正确的概率会大一点。如果原文中有五三运动的意义，五二运动的意义，五五运动的意义这样的字眼，那么匹配的结果将是灾难性的错误。

话唠没话聊:
【时间线】 - 00:01 介绍视频主题为增强式的检索生成 - 00:12 简介RAG（检索式的增强生成）及本次视频内容 - 00:25 开始介绍学习资料和学习内容 - 00:51 大语言模型如GBT7在自然语言领域的进展 - 02:05 介绍检索增强生成RAG的优势 - 02:18 RAG基于文本检索和大语言模型技术的脉络 - 03:11 文本划分成块以便进行编码 - 03:56 使用文本嵌入模型对文本块进行处理 - 04:25 计算用户提问与知识库文档的相似度 - 04:51 构建提示词，准备进行回答 - 05:18 RAG整体流程概述 - 06:24 介绍RAG背景和流程 - 07:04 数据集来源和任务划分 - 08:05 展示数据集样本 - 09:02 划分学习步骤 - 10:01 初始RAG介绍 - 11:19 知识库问答系统KBQA介绍 - 13:03 RAG应用和优势 - 15:02 RAG对知识管理和大模型的调用 - 16:01 RAG提示词构建方式 - 17:08 RAG与SFT的比较 - 18:19 RAG实现步骤概述 - 19:13 RAG实现过程中的挑战 - 20:32 RAG涉及技术概述 - 21:02 解析PDF并回答问题 - 21:13 学习资料获取方式【摘要】：视频详细介绍了RAG技术的背景、流程、优势、应用以及实现步骤，包括知识库问答系统、提示词构建方式、与其他技术的比较等内容。同时提到了RAG实现过程中可能遇到的挑战和解决方案。 --本内容由@DDD_cat生成，正在努力做一款好的ai工具，欢迎访问我们的网站：https://ai.ddcatai.com, qq群：680316576

知识问答 RAG 大模型

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！