一、什么是知识图谱？

星博讯 AI基础认知 2026-04-09 48

你可以把它想象成一张巨大的、机器能理解的 “关系网” 或 “语义网络”。

一、什么是知识图谱？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

通俗比喻：就像我们大脑中存储的知识，你知道“爱因斯坦是位物理学家”、“他提出了相对论”、“他出生在德国”……这些知识点不是孤立的，而是通过“人物-职业-理论-地点”等关系连接在一起，知识图谱就是用计算机语言（图结构）把这种连接形式化地表示出来。
核心思想： 描述实体（事物）、属性以及实体之间的关系。
官方定义：一种用图模型来描述知识和建模万物之间关联关系的技术方法，它由节点和边组成。
- 节点：代表实体（如：人、地点、公司）或概念（如：人工智能、哲学）。
- 边：代表关系（如：出生于、就职于、是…的一部分）或属性（如：身高、成立日期）。

一个经典例子：

（爱因斯坦）-【出生于】->（德国乌尔姆） （爱因斯坦）-【职业是】->（物理学家） （爱因斯坦）-【提出了】->（相对论） （相对论）-【属于】->（物理学）

这就是一个微型的知识图谱。

为什么需要知识图谱？

在搜索引擎里，你搜“苹果”，它怎么知道你想找水果还是科技公司？传统搜索引擎基于关键词匹配，而有了知识图谱，搜索引擎能“理解”你查询的实体及其上下文,直接给你答案卡片。

核心价值：

关联与推理：不仅能找到直接答案，还能发现隐藏的关联（通过投资关系、合作网络，分析公司间的潜在风险）。
语义理解：让机器理解“姚明的妻子”和“叶莉的丈夫”指的是同一个人,实现更智能的搜索和问答。
结构化整合：将来自不同来源、格式各异的碎片化数据（文本、表格、数据库）整合成一个统一的知识库。
可解释性：查询结果和推理路径可以直观地通过“图”展示出来，比深度学习的“黑箱”模型更容易解释。

知识图谱的核心组成部分

构建和使用一个知识图谱,通常涉及三个层次：

逻辑层 - “它长什么样？”
- 数据模型：最常用的是 Rdf 和 属性图。
  - RDF：W3C标准，核心是 三元组 （主语，谓语，宾语），（北京，是首都，中国）,适合开放网络和语义网。
  - 属性图：更直观，节点和边上都可以带有键值对属性，工业界更常用（如Neo4j），节点 （人物：爱因斯坦 {生日： 1879-03-14}）。
- 本体/模式层：相当于知识图谱的“宪法”或“蓝图”，它定义了：
  - 有哪些类型的实体？（类/概念，如：人物、城市）
  - 实体有哪些属性？（如：人物有姓名、年龄）
  - 实体之间允许存在哪些关系？（如：人物居住于城市，城市位于国家）
  - 常用的本体语言有 RDFS 和 OWL。
数据层 - “里面装了什么？”

就是具体的知识数据,以亿万计的三元组或属性图的形式存储在图数据库或三元组库中。
存储与查询 - “怎么存和查？”
- 图数据库：专门为存储和查询图结构数据设计的数据库。优势是能高效进行多跳的关联查询。
  - 代表产品：Neo4j（属性图，最流行）、Nebula Graph、JanusGraph等。
- RDF三元组库：专门存储RDF三元组的数据库。
  - 代表产品：Virtuoso、Apache Jena。
- 查询语言：
  - SPARQL：用于查询RDF数据,是W3C标准。
  - Cypher：用于查询Neo4j的属性图,语法非常直观易读。
  - Gremlin：一种图遍历语言,适用于多种图数据库。

如何构建一个知识图谱？（核心流程）

这是一个简化的“四步走”流程：

知识抽取
- 目标：从各种非结构化（文本）、半结构化（网页、表格）和结构化（传统数据库）数据中，抽取出我们需要的实体、属性和关系。
- 关键技术：
  - 命名实体识别：从文本中找出人名、地名、组织名等。
  - 关系抽取：找出实体间的关系（如：姚明与叶莉是夫妻关系）。
  - 属性抽取：抽取实体的描述性属性（如：上海的人口是2487万）。
知识融合
- 目标：把从不同渠道抽取的知识合并成一个统一、干净的知识库，核心问题是解决歧义和冲突。
- 关键技术：
  - 实体链接：确定文本中提到的“苹果”到底是指 Apple Inc. 还是 水果苹果,并将其链接到知识库中正确的实体上。
  - 知识合并：将不同来源的关于同一实体的信息合并。
  - 冲突消解：当不同来源给出矛盾信息时（如：一个人的出生年份不同）,决定相信哪一个。
知识存储

选择合适的数据模型（RDF或属性图）和图数据库,将融合后的知识存储起来。
知识推理与应用
- 推理：利用已有的知识，推断出隐含的新知识，已知 A是B的父亲， B是C的父亲，可以推理出 A是C的祖父。
- 应用：基于构建好的知识图谱，开发上层应用，如：
  - 智能问答：回答“爱因斯坦在哪出生？”这类问题。
  - 推荐系统：基于物品、用户和其属性的复杂关联进行推荐。
  - 风险控制：在金融领域，分析企业间的担保、投资关系网络。
  - 辅助分析：在医疗领域，连接疾病、症状、基因、药物,辅助诊断和研究。

入门 学习路径与工具推荐

第一步：建立概念

阅读本文档，看一些科普文章和视频，理解“图”思维。
第二步：上手图数据库（强烈推荐）
- 工具：安装 Neo4j Desktop（社区版免费）,它有非常友好的图形化界面。
- 任务：完成官方入门教程，学习 Cypher 查询语言的基本语法：CREATE（创建节点/关系）， MATCH（查询）， WHERE（条件）等。
- 动手：尝试构建一个关于电影、演员和导演的微型知识图谱，并查询“汤姆·汉克斯演过哪些电影？”、“谁既导演又主演了某部电影？”。
第三步：了解技术全貌
- 学习知识抽取的基本概念，了解NER、关系抽取是什么。
- 了解本体（Ontology） 的概念,知道它为什么重要。
- 用一个简单的例子（比如从一段维基百科文本中抽取信息构建图谱），在脑中走一遍“四步走”流程。
第四步：深入与实践
- 编程：学习使用Python操作图数据库（如py2neo库连接Neo4j）。
- 知识抽取实践：学习使用NLP工具库（如spaCy, Stanza）进行简单的实体识别。
- 完整项目：尝试一个端到端的小项目，爬取豆瓣电影数据 -> 抽取实体关系 -> 存入Neo4j -> 做一个简单的问答或推荐界面。