原文来源: GraphProtocol中文‘
概述:
· 对于目前迅猛发展的 AI,为了防止科技巨头对于技术的集中控制,迫切需要去中心化的解决方案。将 AI 和区块链结合起来,是确保数据开放性和可验证性的最佳途径。
· 知识图谱具有卓越的数据组织和检索能力。检索增强生成(RAG)和知识图谱通过提供与上下文相关的最新信息,提高了大语言模型的准确性。
· 去中心化知识图谱是下一个重大范式转移。它可以利用区块链技术确保对信息的开放访问,同时通过可验证性和透明治理来增强信任。
· Geo 是一个开拓性的去中心化知识图谱,即将在 The Graph 上推出。Geo 将区块链技术和 AI 完美整合,以创建更易访问、更可靠、真正由用户治理的互联网。
· 借助人工参与验证和 AI 驱动的内容生成,信息将以指数级的速度产生和组织,在确保信任和透明度的同时,也保持人性化的触感。
我们已经见证了大语言模型(LLM)在主流领域的迅猛普及,以及有关这项技术可能带来的风险的热烈讨论。很明显,AI 将对文化、政治和真相追求产生深远的影响。因此,我们作为全球化的社区,不能让少数科技巨头通过数据护城河来垄断人工智能,而应共同努力,构建去中心化的替代方案。
通过确保数据保持开放和公共性,我们可以建立一个信任层,以一种在大型科技公司控制下的商业环境中无法实现的方式,来验证数据的准确性。我们不应该受少数大型公司的偏见、假设和意见的影响,而是必须共同努力,构建一个真正可访问、由所有人拥有的去中心化大脑。AI 技术本身,以及 AI 技术与我们日常生活的融合,应该从一开始就被设计为一种公共产品,而不是在封闭的环境内,由个别科技巨头向大众提供。
检索增强生成(RAG)的作用
在讨论大语言模型和信息检索时,我们可以用人脑作为类比,来了解我们如何通过工作记忆和显性记忆与人工智能互动。大语言模型擅长显性记忆。在模型的训练阶段,大语言模型使用权重编码数据,以便解析大量内容,并且很好的记忆这些信息。不过,这种方式并非没有缺点。由于大语言模型无法实际存储所有训练数据(因为数据量呈指数增长),这就导致人所共知的大语言模型的「幻觉」现象,也就是大语言模型对看似简单的某些问题,却给出了令人发笑的猜测。并且,由于无法持续进行训练,大语言模型也就无法吸收最新的信息,也就是说,它们对于最新创新和发现是一无所知的。这也是检索增强生成(RAG)技术能够成为大语言模型完美补充的原因。
RAG 是一个过程,它要求首先参考大语言模型训练知识之外的数据集,以便为大语言模型提供新信息和上下文。RAG 可以被视为人工智能大脑的工作记忆。RAG 通过使用外部知识库和向量数据库来整合最新知识,提高 AI 生成内容的准确性和相关性。然而,如果过于依赖非结构化信息,可能会导致提取数据的过程变得非常复杂,带来信息冗余,还不能确保在回答的时候使用了正确的上下文信息。
知识图谱:超越向量数据库
知识图谱可以大大增强大语言模型中 RAG 的能力。与向量数据库相比,知识图谱具有语义分析层次更深、数据检索效率更高、可验证性更强等多方面优势。知识图谱与人类认知非常相似,擅长理解自然语言的复杂性,也能细致入微的洞察数据之间的相互关系。这种语义深度可以确保大语言模型获得与上下文相关的准确资讯,显著提高生成内容的质量。与此相反,向量数据库依赖于文档分块方法,要么忽视上下文信息,要么依靠无关信息,这些都会导致大语言模型的「幻觉」现象。只有通过知识图谱,大语言模型才可以快速找到相关实体,并遍历图谱来获取所有上下文信息。
此外,即使在数据集不断被追加的情况下,知识图谱具有的结构化性质,也非常适合组织大量数据。这种结构优势会使得检索过程更加精确,为任何给定查询提供最相关的数据,提高 RAG 应用程序的性能和效率。这一性能的提高,再结合从大语言模型的「显性记忆」中找到的信息,可以让大语言模型的提示词业务从两个「记忆桶」中获得服务,因为每个记忆桶都有其独特风格和优势,所以能提供更准确、更切合实际的响应。
去中心化知识图谱:一种范式转移
我们相信,去中心化知识图谱可以实现区块链和 AI 最完美的结合——也就是说,这个解决方案可以连接世界上的所有数据,并通过深思熟虑的创造、策展、组织和组合,以易于探索的方式将它们连接起来。以前,知识图谱通常由公司或具有独特知识库的群体,以集中化的方式进行构建,并持续更新。虽然这是一种很棒的解决方案,能满足特定的需求,但它不符合我们对这项技术未来的期待:成为未来互联网的基础。
在区块链和 AI 技术结合方面,有别于其他的炒作和宣传,我们认为,在重要性、范式转移潜力和文化相关性等方面,去中心化知识图谱是其他解决方案无法比拟的。
Geo 是构建于 The Graph(世界领先、用于索引和查询区块链数据的去中心化协议)之上的去中心化知识图谱,我们对 Geo 所做的工作感到非常兴奋。Geo 开创了如何在真正的 web3 精神引领下,从头开始构建这种技术的方式—让所有人都能公开获取所有知识,而无需守门人。
Geo:开创去中心化知识网络
Geo 的目标不仅仅是将全球的数据组织成一个可搜索的数据库,还包括确保这些数据无与伦比的可组合性。与百科全书类似,问题的关键是必须有一种简单的方式来检索所需信息。我们可以设想这样一个未来世界,你可以通过「代理」与 Geo 互动。用户直接向这些代理提出问题,然后知识图谱检索相关的内容、数据库或 API,实时提供给大语言模型(LLM)使用。与目前逐个查看搜索结果的模式不同,代理会在加载与你查询相关的所有信息后,直接给出针对你的问题的答案。
当然,输入到代理中的信息质量至关重要,而这正是区块链技术的优势所在:身份和信誉。通过对每条信息进行原作者认证,确保作者身份可追踪、可验证,可以有效保障信息来源的属性和质量。此外,由于所有内容都是高度可组合的,我们可以在不影响原始数据的情况下,根据自身的兴趣和需求,定制与这些信息的交互方式。
通过 The Graph 构建去中心化大脑
我们的总体愿景是构建一个去中心化大脑,存储来自各种数据源的信息,然后由人类将其整理成若干个称为「Spaces」的独立社区。这个共享的大脑能够利用结构化的信息进行推理,以保证 AI 做出明智的决策。去中心化的大脑一旦诞生,就可以通过 API 连接到现实世界,成为真正自主的智能代理,为用户执行任务,自动化处理日常琐事,让人类可以专注于更有意义的工作。同时,相互关联的知识图谱,能够从多个动态数据源中提取数据,以保证数据的多样性。
一个新的数据贡献和验证生态系统
在全球数据服务领域中,The Graph 依托新开发的互联数据图谱,处于实施这一架构的最佳位置。在现有众多服务的基础上,The Graph 将增加对于大语言模型数据服务的支持,也就是说,索引者将提供开源的模型推理服务。这些模型能够直接访问,或者通过便捷的开发者工具调用,经过互联数据图谱验证的数据。有史以来第一次,开发者可以使用一个开放、可组合、低延迟、完全集成的技术栈,构建比以往更强大的人工智能代理。
从信息检索到知识创造:大语言模型和人类的角色
我们必须采用与众不同的方法来构建未来的去中心化大脑,以增强人工智能系统的弹性和可靠性,确保大语言模型提供有意义的响应,并简化检索增强生成技术(RAG)。在 The Graph 新纪元的设计和架构中,我们可以看到精心构建的知识图谱,如何帮助我们构建更加美好的未来。
1、只有经过加密验证、信誉可追踪的贡献者,才能将信息添加到互联图谱中(因此也添加到 Geo 空间)
2、或者,信息也可以从可验证的第三方数据源中聚合得来
3、大语言模型在工作记忆中已存储的数据与新添加的信息之间建立逻辑连接。此后,Geo 中的人类再对这些信息进行验证
4、智能代理从人类那里接收到提示词,并使用 RAG 从互联图谱中检索最相关的信息
5、那些希望向 Geo 空间贡献内容的用户,因为能够直接访问相关数据,获得更全面的信息,所以能够创建更高质量的内容
6、智能代理本身可以作为用户交互界面存在。通过代理,用户可以请求信息,自己创作并提交新内容。智能代理可以帮助用户编辑、添加、访问和链接其他相关信息
7、为了更好的完成整个知识循环过程,还可以引入策展人角色。通过引入可信赖的人类参与标记信息,知识图谱可以快速确定哪些数据最有价值。我们将重新设计 The Graph 中策展人的角色定位,并利用 GRT 对他们进行激励。
不难想象,未来大语言模型将在人类的帮助下自主扩展知识图谱,而不是人类利用大语言模型来检索信息。大语言模型可以生成信息,并将信息提交给可信赖的人类进行验证。这将大大加快信息聚合的速度,同时保留人类对数据的验证,更重要的是,保留了人类对数据的接触。我们可以禁止大语言模型直接添加数据,从而过滤掉潜在的幻觉信息,同时在大语言模型的帮助下处理日常任务。
去中心化知识图谱中的信任与透明度
将区块链技术与知识图谱相结合,可以为数据验证提供额外的信任层。每一条数据都可以归因于可验证的来源,并保持有关数据来源、修改记录以及相关人员的清晰记录。这种透明性增强了数据的可信度,并为数据使用创造了安全的环境,确保去中心化知识图谱成为推进大语言模型中 RAG 技术使用的最优选择。
通过 Geo 浏览器,我们可以便捷的获取全球信息,这使得处于新纪元的 The Graph 在这一激动人心的互联网革命中处于独特的前沿位置。一个真正开放的、去中心化的人工智能大脑需要开放透明的治理,而这一点在中心化的架构下是无法实现的。所以,The Graph 不仅满足了世界对去中心化知识图谱的需求,还让全球用户群体都能参与到这样一个重要工具的治理中。
让我们砥砺前行。
原文链接