人工智能和知识图谱:人工智能中知识图谱的概述
日期:2025-05-30 14:56:53 / 人气:5
一、知识图谱概述
(一)定义与结构
知识图谱(KG)是由现实世界实体(节点)及其相互关系(边)组成的结构化网络,以机器可读的形式对知识进行编码。每个节点通常对应于由唯一ID或URI标识的现实世界概念或对象(如人物、地点或物品),每条边表示连接两个实体的特定关系或谓词,属性可注释节点和边以捕获其他详细信息。与严格的关系数据库不同,知识图谱使用灵活的基于图的数据模型(通常是RDF或属性图),能适应异构和不断发展的数据,这种灵活性和表现力使其能捕获信息的上下文和含义,促进不同数据源的整合和新事实的推断。

(二)概念起源与发展
知识图谱的概念最初由谷歌2012年的知识图谱推广,实际上建立在语义网络和本体领域数十年的研究基础之上,最早可追溯到20世纪60年代。如今已广泛应用于各行各业,从支持搜索引擎和语音助手,到推动科学研究和企业分析的发展。
二、知识图谱在人工智能中的作用
(一)知识集成
通过链接来自多个来源的信息打破数据孤岛,创建统一的“全局”。利用共享的标识符和模式促进数据访问和互操作性,例如整合客户数据、产品数据和社交媒体数据,实现孤立数据库中难以实现的整体分析。
(二)语义丰富
为AI工作流程增添语义语境,为原始数据赋予丰富的含义(本体、分类),提升机器学习和自然语言处理(NLP)等技术的性能。如图像识别系统可使用知识图谱将检测到的对象与概念分类联系起来,增强对像素模式之外的理解。
(三)推理和推论
明确建模关系支持逻辑推理,基于图的推理器可从现有事实中推断出新的事实(如推断两人同事关系)。这种能力有助于人工智能系统实现类似人类的推理飞跃,而非仅依赖统计相关性。
(四)人机交互
用作可解释性和面向人类的知识检索媒介,通过追踪图中的连接生成人类可读的解释。在对话式人工智能中,为聊天机器人或虚拟助手提供支持,确保答案基于已知事实并提供出处。
三、知识图谱的意义和好处
(一)减少数据需求
利用图谱中编码的先验知识,AI模型可能只需更少的训练样本就能获得良好性能。知识图谱可提供背景信息,减少机器学习模型从大量带标签数据集中推断这些信息的需求。例如,医疗AI可通过知识图谱得知阿司匹林用于治疗头痛,而模型从有限病历中难以学到这一点。
(二)改进迁移学习
基于图谱的知识通常可跨任务迁移。人工智能系统访问广泛知识图谱后,可将知识应用于新领域,无需对每条信息重新训练。如自主代理从一个城市到另一个城市时,可迁移对城市道路网络的理解,无需从原始传感器数据重新学习。
(三)可解释性
通过提供事实及其联系的透明表示,为可解释人工智能(XAI)做出贡献。每条边具有语义含义,人工智能系统可通过引用知识图谱中导出结论的关系链来解释结论,使决策更具可检查性和可审计性,增强信任。如金融AI可通过指出交易受益人与已知欺诈实体之间的关联图路径来解释被标记的交易。
(四)数据集成与互操作性
使用共享词汇表和标识符(通常遵循关联数据标准),实现系统间的互操作性。充当数据的通用语言,使整个组织(或整个网络)的AI系统可互联互通知识。这在数据分散于不同数据库和格式的企业环境中至关重要,谷歌利用其知识图谱通过集成语义上下文改进搜索结果就是例证。
四、知识图谱的简史与演变
(一)早期形式与发展基础
“知识图谱”一词虽于2012年随谷歌公告进入流行词汇,但其底层概念在人工智能历史中根深蒂固。早期形式可追溯到20世纪60年代的语义网络,20世纪90年代本体形式化领域知识表示,90年代末和21世纪初语义网问世,提出在网络上以机器可读的图形形式(RDF)发布数据,RDF和OWL(Web本体语言)等举措以及链接数据原则(约2006年)为网络上互连数据提供标准,这些都为现代知识图谱奠定基础。
(二)谷歌知识图谱的影响与演变
谷歌的知识图谱标志着转折点,在网络规模上展示互连实体描述图如何为搜索和问答提供动力。此后,微软、Facebook等科技巨头构建自己的知识图谱,概念在学术界之外获广泛关注。当今知识图谱已发展到包括领域特定图谱(用于医学、金融等)、开放知识库(如Wikidata)以及组织内部用于分析的企业知识图谱,人们对动态知识图谱的兴趣也日益浓厚,它随新数据到来不断更新和增长,解决知识不断发展挑战,如自动集成生物医学新研究成果。
五、知识图谱的最新进展
(一)与大型语言模型(LLM)集成
作为外部知识源
研究人员探索将知识图谱用作LLM的外部知识源,从知识图谱中检索事实作为LLM答案的基础,即检索增强生成(RAG),应用于非结构化知识时扩展到结构化知识图谱。研究表明,结合知识图谱事实与LLM可提高事实准确性,处理复杂查询,但知识图谱知识表示与LLM基于语言的知识匹配是挑战。
自动化构建和管理
2024年多项研究证明,LLM可通过提取实体和关系,在极少人工监督下辅助从文本中构建知识图谱,表明利用生成式人工智能读取和吸收非结构化信息使知识图谱保持最新状态大有可为。LLM和知识图谱相互作用是双向的,知识图谱使LLM更扎实、更易解释,LLM使知识图谱创建和查询理解更自动化。
(二)知识图谱嵌入和Graph ML
目标与基础模型
知识图谱嵌入旨在将实体和关系表示为连续空间中的向量,有助于使用ML算法进行链接预测、实体分类等任务。TransE(2013)和ComplEx(2016)等经典模型奠定基础,近期研究推动前沿发展。
新发展方向
引入更具表现力的嵌入技术处理复杂关系模式(如对称性、层次结构)和多跳推理,基于图神经网络(GNN)和Transformer构建的模型受欢迎,如关系图卷积网络(R - GCN)及其变体采用邻域结构,较新的Graph Transformer架构旨在捕获图中的长距离依赖关系。
解决时间动态(随时间变化的知识)、多模态知识(将文本、图像合并到实体表示中)以及海量图的可扩展性等挑战,将更多语义带回嵌入模型,如将本体信息或逻辑规则合并到嵌入训练中确保学习向量遵守已知约束。
FB15k - 237和Wikidata5M等基准测试推动进步,最先进的链接预测结果稳步提升,知识图谱补全技术与逻辑推理相结合提高准确性,一些研究将基于规则的推理与基于嵌入的预测相结合。
(三)自动推理与查询
推理算法进展
包括针对大型三元组存储的改进的SPARQL查询优化器,以及将符号逻辑与神经网络相结合的新型推理方法。如神经符号系统使用可微逻辑对知识图谱进行推理,处理不确定性和噪声,开发超越三元组的推理方法,承认现实世界知识通常不只是二元关系,引发对超关系知识图谱及其相应推理技术的研究。
查询语言发展
SPARQL仍是RDF知识图谱的主导,但人们探索用于属性图和图挖掘的扩展和全新语言。Cypher(Neo4j的查询语言)影响openCypher和GQL提案,TigerGraph中的GSQL强调分布式图分析,与机器学习的相互作用体现在神经查询应答中,如KG - BERT将知识图谱查询视为文本,使用Transformer模型查找答案,连接NLP和结构化查询。语义网社区制定SPARQL - Star(处理关于语句的语句)和SHACL(约束检查)等标准,反映查询和验证知识图谱方式的持续改进。
六、新兴趋势
(一)知识图谱与LLM的协同作用
处于前沿,旨在实现既能回忆事实又能生成流畅文本的人工智能。
(二)企业规模和自动管理
许多进展集中在使知识图谱更易于构建和维护,使用人工智能进行提取、众包贡献或自我更新机制。
(三)可解释且值得信赖的人工智能
知识图谱被视为用户可信赖的人工智能途径,通过事实图谱支撑决策。
(四)特定领域的知识图谱
专门的图谱(如生物医学、地球科学或法律领域)蓬勃发展,催生对自定义本体和定制算法的研究。
(五)知识图谱嵌入2.0
超越简单翻译模型,转向更复杂的、或许混合符号嵌入的方法,将本体模式和文本描述与用于表征学习的图结构相结合。
(六)多模态数据集成
致力于将图像、音频和视频纳入知识图谱,并在此类多模态知识图谱上进行表征学习。
总体而言,目前最先进的技术表明,知识图谱与人工智能的结合越来越深入,可扩展性越来越强,在构建和使用方式上越来越智能。
作者:杏彩娱乐注册登录官网
新闻资讯 News
- 何小鹏又捞了自己一把 智驾新品发...05-30
- 没有轴心的世界(3):欧洲数字...05-30
- 人工智能和知识图谱:人工智能中...05-30
- 拨云见日:从私营企业看国家主导...05-30