海量研报在线阅读 高效提升商业认知
【imit】白皮书医学知识图谱医学人工智能的基石 2023
2023-03-07
医学知识图谱:医学人工智能的基石
Medical Knowledge GraphCornerstone of Medical AI
知识是人类智能的象征,知识对人工智能而言有着同样重要的意义。知识表示、获取和应用一
直是人工智能的重要研究方向,知识图谱则是随着人工智能的历史逐渐发展和演变出的一个概
念。医学被认为是人工智能可以大显身手的领域之一,医学知识图谱也是近年来医学人工智能
行业关注的焦点之一。医学知识图谱可以作为底层数据,应用于医学领域的语义搜索、知识问答、
临床决策支持等场景。如何根据医学知识的特点,设计和构建符合医学专业逻辑的知识图谱,
是医学知识图谱能更好应用的关键。
本期导读
imit 数字医学知识中心imit 数字医学知识中心
林云云
卡德热亚·买买提
赵芳君
徐美兰
朱烨琳
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
1
内容摘要
( ) 知识图谱概述
知识图谱是一种用图模型来描述知识和建模
世界万物之间的关联关系的技术方法,由节
点和边组成,三元组是知识图谱的基本表示
形式。在逻辑上可将知识图谱分为模式层和
数据层。按领域可将知识图谱分为通用知识
图谱和领域知识图谱,医学知识图谱是一种
重要的领域知识图谱。
( ) 知识图谱发展历史
回溯知识图谱的发展历史可以发现,语义网
络、本体、万维网、语义网和链接数据等概
念都与其有千丝万缕的联系。在人工智能领
域,知识图谱是语义网络和本体等概念的延
伸。同时,在知识图谱中也可以看到万维网、
语义网和链接数据等互联网的基因。
( ) 国内外主流知识图谱介绍
在通用知识图谱领域,国内外发展早、积累
多,国内起步晚,但在近些年也有大量的项
目积累。在医学知识图谱领域,国内在数据
规模、维护模式和知识整合层面相较于国外
都还有一定的差距。
( ) 医学知识图谱的特点
医学知识有术语多样化、知识分散、知识复
杂和质量参差不齐等特点,这些特点也使医
学知识图谱在知识表示、知识获取和知识应
用三个层面需有一些特殊的设计与考量。
( ) 医学知识图谱的构建
医学知识图谱的构建和通用知识图谱类似。
在构建流程上,可以分为知识建模、知识抽
取、知识融合、知识存储和知识推理;在构
建方式上,可分为机器构建和人工构建。在
医学知识图谱的构建中,如何平衡人工与机
器的参与度,选取合适的技术方法是关键。
( ) 医学知识图谱的应用
现阶段,医学知识图谱的主要应用方向为语
义搜索、知识问答和临床决策支持,同时在
一些新领域,如辅助药物研发和公共卫生事
件应对,知识图谱也逐渐显示出其优势。
( ) 医学知识图谱的未来展望
随着行业应用的深入,医学知识图谱未来在
数据数量、数据质量、标准化程度和知识分
级等方面应有更高的要求。医学知识图谱是
医学人工智能的基石,如何准确定位,选取
出适合的知识,设计恰当的构建路线,采用
合适的构建技术,营造良好的行业共享互动
生态是医学知识图谱未来发展的重点。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
2
研究简介
( ) 研究背景
知识图谱概念自提出以来,引起了人工智能
行业内的广泛关注,越来越多的通用和领
域知识图谱项目也逐渐落地。医学领域的知
识和知识应用场景相较于其他领域有其特殊
性,如何吸取其他领域知识图谱的项目经验,
总结出一套符合医学逻辑的知识图谱构建流
程和应用方式,是知识图谱在医学领域的应
用能真正落地的关键。
( ) 研究目标
通过对医学领域的深入研究,归纳出医学知
识图谱的特点,梳理医学知识图谱的主要构
建流程和方式,总结医学知识图谱的主要应
用方向,并对医学知识未来的发展提出相关
展望。希望通过本期白皮书,能够为国内医
学知识图谱的发展提供参考。
( ) 研究方法
本研究通过对国内外相关文献和资料进行检
索和整理归纳分析,同时对国内有代表性的
开展医学人工智能和医学知识图谱相关企业
进行调研,深入了解医学知识图谱行业的发
展状况。
( ) 浙江数字医疗卫生技术研究
浙江数字医疗卫生技术研究院(简称“数
”,imit
TM
)是中国首家致力于数字与
信息化技术在医疗卫生健康服务领域研发
与应用的专业性非营利研究机构NPO/
NGO,院长为杨胜利院士,理事长为李
兰娟院士,常务副院长为郑杰先生。
数研院聚集众多业内的资深院士和专家学
者、全球著名的医疗保健设备厂商、国内外
领先的行业软件企业来共同从事该领域的研
究开发、顾问咨询、认证评估、国际合作、
成果转化等工作,并引领政、产、学、研、
用、资六位一体的公益事业公共服务支撑平
台,进而营造出可生存可持续发展的数字医
疗卫生产业链生态环境。
( ) 版权说明
本白皮书版权属于浙江数字医疗卫生技术研
究院,并受法律保护。转载、摘编或其它使
用本白皮书文字或观点内容,请注明“来源 :
浙江数字医疗卫生技术研究院”,若违反上
述声明者,本院将追究其相关法律责任。
白皮书中所有带星号*)的示例数据均
来源于 OMAHA 知识库(包括“七巧板
医学术语集和“汇知”医学知识图谱
OMAHA 知识库版权归浙江数字医疗卫生技
术研究院所有。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
3
一、知识图谱概述
实体:又称为对象object)或实例
instance,指客观世界中具有可区
别性且独立存在的某种事物,如 2 型糖
尿病、二甲双胍。实体是知识图谱最基
本的元素,每个实体可以用一个唯一的
ID 进行标识
[4]
概念又称为类别type)、类( category
class,指反映一组实体的种类或
对象类型,如疾病、药品
[4]
关系:指连接不同实体的“边”,用以
描述实体之间的关联
[4]
,如二甲双胍和
2 型糖尿病之间有适应证关系 *
属性:指某个实体可能具有的特征以及
参数
[4]
,如二甲双胍有医保支付类别属
*
属性值:指实体特定属性的值
[5]
,如二
甲双胍的医保支付类别为甲类 *
知识图谱在逻辑上分为模式层和数据层
[6]
模式层一般指 Schema,是知识图谱的概念
模型和逻辑基础,是数据层的规范约束。数
据层主要由一系列的事实组成,主要基于模
式层定义的模型构建数据,以三元组形式存
储。三元组 G=headrelation/property
tail)是知识图谱数据层的一种通用表示形
,其中 head 是三元组的头节点tail
三元组的尾节点relation/property={r1
r2r3,…,rMp1p2p3,…,pN}
知识图谱关系和属性的集合,共包含 M
关系和 N 条属性。三元组的基本形式主要
包括(实体 1,关系,实体 2)和(实体
属性,属性值)。
以二甲双胍为例 *,其部分知识图谱示例如
1
人工智能的早期发展中可分为两个主要流
,连接主义Connectionism)和符号主
义(Symbolism)。连接主义主张用计算机
模拟人脑神经网络连接的形式来实现智能,
这一流派的代表为深度神经网络;符号主义
则主张用计算机符号表示人脑中的知识,这
一流派的代表为知识工程和专家系统。近年
来,深度学习等技术的发展让连接主义在视
觉、听觉等由数据驱动的感知智能领域获得
了成功,但在模拟人思考过程、处理常识知
识和推理,以及理解人的语言方面仍然举步
维艰。符号主义关注的核心是知识的表示和
推理 KRRKnowledge Representation
and Reasoning,它属于知识驱动的认知
智能领域,可以很好地弥补连接主义的不
足。作为人工智能研究中的基础,符号主义
关注的知识表示和推理发展出了很多成果,
其中知识图谱是人工智能发展到新阶段的符
号主义代表,它的本质是一种基于图模型的
结构化知识表示形式,它能够表达丰富的语
义知识,同时也更易于被机器理解和处理。
知识图谱是当前人工智能发展的基石。对于
医学人工智能而言,医学知识图谱同样也是
基石
[1][2]
( ) 知识图谱定义
2012 5 月,Google 首次提出了“知识图
谱”的概念。虽然至今行业尚未形成统一、
标准的定义,但 Google 知识图谱的宣传语
things not strings”揭示了知识图谱的核
心。知识图谱指的是一种用图模型来描述知
识和建模世界万物之间的关联关系的技术方
[3]
。知识图谱由节点和边组成,节点表示
体(entity)、念(concept)或属性值
value);边表示实体的属性(property
或实体间的关系(relation)。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
4
( ) 知识图谱分类
当前常见的知识图谱分类维度有如下几
[7]
按照知识图谱中的知识类型进行分类
主要包括概念知识图谱、百科知识图谱、
常识知识图谱、词汇知识图谱;
按照语言可划分为单语言知识图谱和多
语言知识图谱;
按照构建方式,则可以分为全自动知识
图谱、半自动知识图谱和以人工为主构
建的知识图谱;
按照知识图谱所涉及的领域分为通用知
识图谱、领域知识图谱和企业知识图谱。
按照知识图谱领域划分是行业较为常见的一
种图谱分类方法。其中通用知识图谱主要
以互联网开放数据作为主要来源,强调融合
更多实体,可以形象地将其看成一个“结构
化的百科知识库”。通用知识图谱包含大量
的常识性知识,覆盖面广,但准确度一般不
高,并以搜索和问答为主要应用形式
[8]
。领
域知识图谱又称为行业知识图谱或垂直知识
图谱,通常面向某一特定领域,主要基于行
业数据构建,对特定行业有重要的意义。由
于领域知识图谱需要考虑不同的业务场景和
使用人员,所以实体的关系和数据模式比较
丰富,对该领域知识的深度和准确性也有着
更高的要求
[8]
目前医学知识图谱是应用最广的领域知识图
谱之一,也是国内外人工智能领域研究的热
[5]
。它在语义搜索、知识问答和临床决策
支持等智慧医疗领域都有很好的发展前景。
1:二甲双胍部分知识图谱示例 *
来源:OMAHA 知识库,白皮书团队整理分析
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
5
二、知识图谱发展历史
语义网络重点在于构建词与词之间的关联,
但不能明确区分概念和实例。从语义网络中
已经可以看到知识图谱的雏形。
( ) 本体
本体的概念源于哲学领域,被定义为存在论,
即对世界上客观事物的系统描述20 世纪
90 年代初,本体概念被广泛地应用于计算
机领域中,是概念化和结构化的知识表示方
。在初期Tom Gruber 提出“本体是
概念模型的明确规范说明”
[10]
。之后 Studer
等人进一步深化了本体的定义,于 1998
总结提出:“本体是共享概念模型明确的形
式化说明”
[11]
。一个本体通常由概念类、关
系、函数、公理和实例组成。本体注重概念
层的构建,它从实例中抽象出事物的本质,
统一概念,建立概念间的关联关系。本体的
树状结构常被用来定义知识图谱 Schema
在此基础上添加扩充实例和数据后形成知识
图谱。
( ) 万维网 & 语义网
万维网由 Tim Berners-Lee 20 世纪 80
代提出,利用超文本技术实现网页及网页
之间的连接,但机器无法读取网页中的具体
信息
[12]
。而语义网作为万维网的衍生物
旨在达到互联网信息互通无障碍。语义网
知识图谱的发展历史可以从语义网络
Semantic Network)开始溯源,期间本
论(Ontology、万维网World Wide
Web、语义网Semantic Web、链接
据(Linked Data)等概念的提出都对知
识图谱的产生和发展有着重要的影响
[2]
。语
义网络概念的提出为知识图谱提供了构建思
,本体论为知识图谱提供概念模型Tim
Berners-Lee 提出的万维网则实现了链式网
络文档,基于万维网提出的语义网技术为知
识图谱研究奠定了基础,链接数据则是最接
近知识图谱的概念,之后谷歌提出的以信息
检索方式呈现 “知识图谱”正式开启了行
业对知识图谱的研究。知识图谱发展历史时
间简表如图 2
( ) 语义网络
语义网络是用实体及其语义关系来表达知识
的一种知识表示方式,在数学上是一个有
向图,与逻辑表示法对应。语义网络最早由
Quillian 于上世纪 60 年代以人类联想记忆
的一个心理学模型提出,之后被应用于自然
语言理解
[9]
。语义网络一般由最基本的语义
基元组成,即有向图表示的三元组(节点 A
R,节 B其中节点表示实体,即事物、
概念、事件、属性、状态等,弧表示它们之
间的关系,即语义关系。多个语义基元用相
同的语义联系连接起来就形成了语义网络。
2:知识图谱发展历史
来源:王昊奋 , 漆桂林 , 陈华钧 主编 . 知识图谱:方法、实践与应用 [M]. 电子工业出版社 , 2019
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
6
技术栈中本体构建方式实现了知识表示和推
,资源描述框架Resource Description
FrameworkRDF)则是用来陈述三元组结
构的数据模型
[13][14]
。计算机读懂每个词和
概念之间的逻辑关系后,让搜索变得简单易
行。知识图谱的最初理想就是将文本连接的
万维网转换成基于实体链接的语义网。
( ) 链接数据
2006 Tim Berners-Lee 在语义网基础上
提出了链接数据。链接数据起初是用于定义
如何利用语义网技术在网上发布数据,其强
调在不同的数据集间创建链接,是语义网技
术更简洁的描述
[15]
。知识图谱是对链接数
据这个概念的进一步包装,或者说链接数据
是一种开放式的知识图谱。
( ) 知识图谱
知识图谱最先由谷歌于 2012 年提出,主要
是通过以结构化而非纯文本的方式描述事物
的属性以及事物之间的关联,解决“返回结
果精准度”及“提高用户查询满意度”等问
题。谷歌希望以知识图谱为基础打造出更加
智能化的搜索引擎
[16]
。这一概念的提出引
起了行业的广泛关注,随后越来越多的知识
图谱项目涌现,知识图谱逐渐发展成为一个
行业的概念
[3]
3 为一个可视化的知识图谱示例。用户在
谷歌搜索引擎中输入某个主题的关键词后,
它会将该关键词所指代的实体的相关知识结
构化地显示在右侧,从而实现了从简单的字
符串搜索向语义搜索的转变
[17]
( ) 小结
从知识图谱的发展历史可以看出知识图谱结
合了多种不同的技术方法,导致知识图谱与
其它概念的定义容易混淆,尤其是与本体和
传统语义网络的定义。通过分析它们之间的
最明显区别可以有效避免混淆使用。
3:谷歌知识图谱应用示例
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
7
1. 知识图谱与本体
本体一般定义领域内实体抽象出的概念框
架,目的在于知识的共享和数据的互联互通。
而知识图谱则重点关注实体间的关系和这些
关系的直接应用,概念层作为 Schema 常用
来指导知识图谱的构建。
2. 知识图谱与传统语义网络
1)传统的语义网络依靠专家总结和手动
构建,规模有限。然而知识图谱依靠自动化
技术从数据和文本中挖掘知识,并不断完善,
使得知识图谱的规模相较于传统的语义网络
要更大。
2)传统语义网络中侧重表现实体之间的
关联关系,而知识图谱则不仅包含了实体间
的关联关系,还包含了数据层和模式层之间
的关系。
3)传统的语义网络缺乏 Schema,而知
识图谱的 Schema 为知识图谱中实体和实体
关系定义了规范,使数据更标准和更易用。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
8
三、国内外主流知识图谱介绍
3ConceptNet
[20]
ConceptNet 起源于1999 年麻省理工学
院媒体实验室推出的众包项目 Open Mind
Common Sense OMCS,它是一个开
放的、多语种的常识知识库,目的是帮助计
算机理解人们日常的沟通和交流。其构建的
知识主要依靠其他众包项目、专家创建和目
的性游戏的方法产生。目前 ConceptNet 5
版本已经包含 2800 万关系。
4Dbpedia
[21]
Dbpedia 2007 年由德国莱比锡大学、德
国曼海姆大学和美国 OpenLink Software
同参与创建。它的数据主要来源于维基百科
Wikipedia,支持语言多达 140 种。
核心的 Dbpedia 本体截止到目前已涵盖 768
个类,主要涉及人、地点、工作、物种、组
织等,还包含用于描述的 3000 多属性和约
482 万实例。
5Wikidata
[22]
Wikidata 由维基百科于 2012 年启动创建,
是一个免费开放的多语言知识库,支持人和
机器以三元组为基础的知识条目的多种语言
的编辑2010 年谷歌将 Freebase 进行收
购后在 2016 年将其关闭,并将所有的数据
API 服务都迁移至 Wikidata 。截止到
目前为止 Wikidata 支持的语种超过 300 种,
9652 万知识条目可进行编辑。
6BabelNet
[23]
BabelNet 由罗马萨皮恩扎大学创建,是
一个大规模且多语种的词典知识库和语义
网络。它的数据主要来源于 WordNet
WikiPedia Wikidata,并将WordNet
WikiPedia 的数据建立关联,利用
WikiPedia 的多语言链接和机器翻译实现对
( ) 通用知识图谱
国内外较为知名的通用知识图谱有很多,行
业内具有一定知名度的有 CycWordNet
ConceptNetDbpediaWikipedia
WikidataFreebaseBabelNetNELL
Never-Ending Language Learner)、
Yago Microsoft ConceptGraph 、知网、
OpenKGzhishi.mePKU-PIEXLORE 等,
下文选取其中部分图谱进行简单介绍。
1. 国外通用知识图谱
1Cyc
[18]
Cyc 1984 年由 Douglas Lenat 领导创建,
其最初的目的是将已整理的百万条常识内容
通过编码转换成机器可理解的形式进行处
理,逐步构建一个循序渐进的逻辑推理系统。
Cyc 知识库早期由人工进行构建,近年来也
开始使用一些自动构建的方法来进行知识抽
,如使用语义知识源一体化Semantic
Knowledge Source IntegrationSKSI)系
统来“就地”获取其所需的数据。截止到目
前为止,Cyc 知识库已收录超过 150 万概念、
4000 多谓词和 2500 万明确表述的公理。
2WordNet
[19]
WordNet 1985 年由普林斯顿大学认知科
学实验室启动建设,是一个大型英语词汇数
据库。WordNet 将名词、动词、形容词和副
词归类为同义词集synsets,每个同义
词集都用于表达一个不同含义的概念。同义
词集之间由多种语义关系进行连接,其中最
主要的是上下级关系,还包括有整体 - 部分
关系,同义关系和反义关系等。目前已收录
15.5 万单词11.7 万同义词集和 20 万语义
关系。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
9
WordNet 多语言的支持。目前BabelNet
已发布 5.0 版本,覆盖 500 种语言2000
万同义词集、1311 万命名实体和 16 亿关系。
7NELL
[24]
NELL 2009 年由卡内基梅隆大学创建的
一套永不停歇的机器学习系统,具有从非结
构化的网页中提取结构化信息的能力,并对
自动抽取的三元组知识进行不断地学习。它
2010 1 月以来一直在持续运行,已累
积了 1186 个不同类别和关系,以及它们所
对应的 281 万实例。
8Yago
[25]
Yago 2007 年由德国马普研究所主持
创建的一个大型语义知识库,数据来源于
WikipediaWordNet GeoNames
[26]
,包含
有关于人、城市、国家、电影和组织等常识
其数据最大的特点是都经过人工审核,准确度
95%同时,它对每条关系都用了可信度值
进行注释。目前已发布 Yago 4.0 版本,其使
用资源描述框架模式Resource Description
Framework SchemaRDFS)进行构建
顶层类和属性都来源于 Schema.org
[27]
,并
采用了结构性约束语言Shapes Constraint
LanguageSHACL)进行语义约束。此版本
包含超过 5000 万实体和 20 亿关系。
9Microsoft ConceptGraph
[28]
Microsoft ConceptGraph 是由微软亚洲研究
院在 2016 年基于 Probase 的研究项目进行
创建,目的是为了让机器能够更好的理解人
类的交流语言。其数据主要来源于数十亿的
网页和多年的搜索日志。它的模型构建是将
真实世界的单个实例、带上下文的单个实例
和短文本进行概念化,并建立概念间的 IS A
关系。目前最新发布的核心版本主要是将单
个实例进行概念化的数据,包含 537 万概念、
1250 万单个实例和 8510 IS A 关系。
2. 国内通用知识图谱
1OpenKG
[29]
OpenKG 是中国中文信息学会倡导的一个中
文领域开放知识图谱社区项目,目的是通过
建设开放的社区联盟来促进知识图谱数据的
开放与互联。其中 OpenKG.CN(开放图谱
资源库)目前已收录了多个领域的 186 个数
据集,它对这些数据进行了链接计算和融合
工作,并对完成链接的数据集开源,提供免
费开放的访问 API Dump。同时,它还将
一些开源的知识图谱构建工具进行了收集,
目前已整理了 60 个工具集,如 Protégé
Limes DeepDive 等。
2)知网(HowNet
[30]
知网是在 20 世纪 90 年代由董振东和董强
主持设计和构建的一个语言知识库。它是一
个基于义原进行构建的语义描述体系,所有
词语代表的概念含义都由最基本的、不宜再
分割的最小语义单位即义原所构成,描述了
概念和概念之间的关系以及概念所具有的属
性关系。经过多年积累,知网已收录约 23
万中英文词条、2000 多义原和 3.5 万概念,
并为十几万汉语和英语词汇所代表的概念标
注了义原。
3CN-DBPeidia
[31]
CN-DBPeidia 是由复旦大学知识工场实验
室创建并维护的通用结构化百科知识图谱。
其数据主要是通过抽取中文百科类网站(如
百度百科、互动百科、中文维基百科)页面
的纯文本内容结构化而产生,同时还对提取
的结构化数据进行整合、补充和纠正,极大
地提高了知识图谱的质量。截止到目前为
,它已收录 1696 万实体和 2.2 亿关系
API 被调用多达 12 亿次。
4zhishi.me
[32]
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
10
zhishi.me 是一个中文常识知识图谱。它的
数据主要来源于百度百科、互动百科和中文
维基百科,主要从这些百科的数据进行结构
化数据的抽取,并采用固定的规则将它们之
间的等价实体进行链接,目前已收录 785
实体。
5PKU-PIE
[33]
PKU-PIE 是由北京大学构建的中文百科知
识图谱。它对维基百科DBpedia 和百度
百科等多个来源的知识进行自动抽取,同
时建立了自己的类别体系和谓词体系,并
DBpedia 等常见的数据库进行了关联
PKU-PIE 目前已收录 90 万实体5000
万关系。
6XLORE
[34]
XLORE 是由清华大学创建的大规模中英文
双语百科知识图谱,其数据来源于中英文维
基百科和百度百科,将百科知识进行结构化
后用以描述客观世界的概念、实例、属性和
它们之间的语义关系,并同时建立跨语言
的等价链接。目前它已收录 2600 万实例
235 万概念和 51 万属性关系。
( ) 医学知识图谱
医学是知识图谱应用最广的垂直领域之一
当前国内外也涌现出了很多优秀的医学知识
图谱。国外知名的医学知识图谱有一体化
医学语言系统Unified Medical Language
SystemUMLS、医学系统命名法 -
床术语Systematized Nomenclature of
Medicine-Clinical TermsSNOMED CT)、
解剖学基础模型本体Foundational Model
of Anatomy OntologyFMA、人类表
型本体Human Phenotype Ontology
HPO、基因本体Gene ontology
GO、关联生命数据集Linked Life
DataLLD)等;国内则有中文一体化医
学语言系统Chinese Unified Medical
Language SystemCUMLS、中医药学
语言系统Traditional Chinese Medicine
Language SystemTCMLS、医药卫生
知识服务系统、中文医学知识图谱Chinese
Medical Knowledge GraphCMeKG
OMAHA 知识库OMAHA Knowledge
Base等。下面简单列举一些图谱进行介绍
1. 国外医学知识图谱
1UMLS
[35]
UMLS 是美国国立医学图书馆The
National Library of MedicineNLM)自
1986 年起研究和开发的一体化医学语言
系统,旨在使信息系统能够理解生物医学
领域同一概念的不同表达形式,实现计算
机系统间的互操作UMLS 知识库包括超
级叙词表Metathesaurus、语义网络
Semantic Network)、专业词典和词汇处
理工具(SPECIALIST Lexicon and Lexical
Tools三个部分,三者可以单独或一起使用。
超级叙词表是一个大型的生物医学词汇库,
集成了生物医学和健康方面的本体、叙词表、
分类表、疾病编码集、专家系统、词汇表中
的术语及相关信息,如 MeSHRxNorm
SNOMED CT LOINC它每年发布两次,
最新发布的 2021AA 版本包含有 25 种语言、
444 万概念和 1610 万概念名称。超级叙词
表以概念为核心进行组织,所有来源词表具
有同样涵义的词和短语组成概念或同义词
类,每个概念与其它概念之间以语义邻居方
式形成不同词表概念间的语义关联。
语义网络由语义类型和语义关系构成。语义
类型为超级叙词表的概念提供统一的分类,
目前共有 127 种,每个超级叙词表概念至少
被分配一个语义类型。语义关系是一组存在
于语义类型之间的关系,目前共有 54 种,
包括等级关系链 IS A 关系和非等级关系链
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
11
的相关关系。其中相关关系分为物理上相关、
空间上相关、时间上相关、概念上相关和功
能上相关五大类。
专业词典和词汇处理工具主要作用是为超级
叙词表构建和维护提供帮助。专业词典是在
NLM 自然语言专家处理系统NLP)项目
基础上研发的,覆盖范围包括常见的英语单
词和生物医学词汇,是一个通用的生物医学
词汇库。每条词汇记录都详细描述了该词的
句法、词法和字法信息。它目前包含约 45
万条生物医学和常用英语词汇条目以及 80
余万条词汇变化形式。
词汇处理工具是超级叙词表建立和维护所
需的一组工具集,如原形字符串生成器
Normalzed String GeneratorNorm)、
词索引生成器Word Index Generator
WordInd)和词形变化生成器Lexical
Variant GeneratorLVG)。
2SNOMED CT
[36]
2002 1 SNOMED CT 首次发布,它由
两大医学术语 SNOMED RTSystematized
Nomenclature of MedicineReference
Terminology)与CTV3 Clinical Terms
Version 3)合并而来SNOMED CT 基于
本体进行构建,因其强大的概念体系成为世
界最完整的临床术语集,目前已被各国或地
区广泛使用。
SNOMED CT 的三大核心分别是概念
Concept)、述(Description)和关系
Relationship。目前发布的最新版本包
35 万概念、125 万描述和 116 万关系。
概念分为 19 个顶层类概念,包括有“Clinic
finding 、“ Procedure 、“ Pharmaceutical
/ biologic product 、“ Substance 、“ Body
structure”等。
描述(即术语)为概念提供了人类可读
的形式,一个概念可以有多个术语进行
述。 如“Myocardial infarction”(
肌梗塞)这个概念包括有Myocardial
infarction”、
Infarction of heart 、“ Cardiac
infartion
和“Heart attack”等多个术语进
行描述。其中“Myocardial infarction”称为
首选术语,其他术语则称为同义词。
关系用于表达概念之间的语义关联,包括有
IS A 关系和属性关系。IS A 关系表示层级关
系,表示概念是其上位概念的一种类型,一
个概念可能有多个上位概念,如
Abscess
of heartIS AMass of mediastinum”,
IS AStructural disorder of heart”,
IS AAbscess of thorax”,IS AAbscess
of cardiovascular structure of trunk
属性关系是对概念的内涵进行揭示,如
Myocardial infarctionFinding siteHeart
structure”,Morphological abnormality
Abscess”。SNOMED CT
目前有50
种属性关系用于表达不同类下概念之间的语
义关系,Finding site 、“ Morphological
abnormality 和“Has focus”等。
3Linked Life Data
[37]
Linked Life Data 是一个面向生物医学领域
的语义数据集成平台,它集成了 25 种生
物医学数据资源,如结构化数据库NCBI
GeneUniprotDrugBankBioPAX )、
术语库UMLSOBO)和半结构化文档
PubmedClinicalTrials.gov,共包含
40 多亿三元组,其知识内容涵盖基因、蛋
白质、疾病、药物、分子相互作用、通路、
靶点和临床试验相关信息。
Linked Life Data 开发的一个重要目标就是
在集成的数据集上进行推理,同时避免数据
冗余,并能够推荐新的链接关系或在已知数
据集上推导出潜在知识。其构建标准为
使用统一资源标识符Uniform Resource
IdentifierURI)标识所有资源,确保所有
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
12
标识符都可以被人和计算机进行解析,支持
W3CThe World Wide Web Consortium
RDF SPARQLSPARQL Protocol
and RDF Query Language)查询语言,发
布的数据需包含与使用 URI 标识的其他相关
内容的链接。集成的数据均需采用 RDF
据模型,因此先保留来源数据的原始 RDF
结构,对没有 RDF 来源的数据源使用可解
析的 URI 以规定的形式进行构建。在所有
数据都被表示成 RDF 格式后,必须在资源
之间建立额外的链接,最终形成linked
数据。
2. 国内医学知识图谱
1中文一体化医学语言系统CUMLS
[38]
CUMLS 是中国医学科学院医学信息研究所
基于 UMLS 开发的中文一体化医学语言系
统,其包含医学词表、语义网、构建工具与
平台。
医学词表收录了医学、药学和牙科学等 10
余个生物医学领域内的主题词表、分类
、术语表和医学语料库,包括有《医学
主题词表Medical Subject Headings
MeSH中文版、《中国中医药学主题词表》
和来自医学文本术语的《医学语料库》等。
医学词表共收录了医学主题词 3 万多条、入
口词 3 万多条、医学术语 10 万多条和医学
词汇素材 30 万多条。
CUMLS 语义网络基于美国 UMLS 的语义网
络建立,由语义类型和语义关系两部分构成。
语义类型按实体和事件分类并进行相应层级
关系排列。语义关系则包括有等级关系(即
IS A 关系)和相关关系两部分。相关关系又
分为 5 大类,分别是物理上相关、空间上相
关、概念上相关、位置上相关和功能上相关。
通过语义关系建立语义类型间的关联性,实
现对概念之间的语义关系的多角度描述。
构建工具与平台是为医学词表的构建、维护
和发布提供保障。构建工具包括同义词识
别工具、语义相似度计算工具和主题分类一
体化检索维护平台等。词表发布平台则是
CUMLS 系统最终面向用户的可查询检索平
台,为医学信息专业人员和普通用户提供服
务。
2)中医药学语言系统(TCMLS
[39]
TCMLS 是由中国中医科学院中医药信息研
究所主持研究和创建的基于本体的中医药学
术语系统。它在借鉴 UMLS 的框架基础上
根据中医药学特有的语言特点和学科体系特
色进行构建,目前已收录了约 12 万概念
30 万术语和 127 万语义关系。TCMLS 主要
包括有语义网络和基础词库两部分。语义网
络通过其定义的语义类型和语义关系构成了
TCMLS 的顶层架构。语义类型是中医药学
领域的概念分类体系,包括有中医特色的概
念和通用概念, 128 种,“脏腑”“经络”
和“药用物质”等;语义关系则用于表示概
念间的关联关系, 58 ,分为“IS A(上
下位关系)”和Associated with(相关关
系)其中相关关系分为“物理上相关”
“空间上相关”“影响”“时间上相关”
“概念上相关”五大类,“相表里”“开
窍于”。基础词库是将收集的各个标准来源
的中医药术语以概念为核心进行系统的梳理
和准确描述,并建立了概念间的语义关系。
3)医药卫生知识服务系统
[40]
医药卫生知识服务系统由中国医学科学院
医学信息研究所承建,旨在建立具有公益
性、开放性的医药卫生知识服务平台。其主
要资源来源于世界卫生组织(World Health
OrganizationWHO)和美国国立卫生研
究院(National Institutes of HealthNIH
等医药卫生领域权威网站、医药卫生领域的
OA 英文期刊、中国知网China National
Knowledge InfrastructureCNKI)的中文
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
13
文献数据、国家人口与健康科学数据共享
平台的科学研究成果和国外开放科学数据资
源、“健康中国 2020的医学百科数据库等,
形成了约 1500 万条相关资源。
系统围绕“重大慢性病”为主题,通过对资
源的深度挖掘和关联分析,建设了医药卫生
领域智能检索、医药卫生科学数据服务、重
大慢性病数据智能分析和特色知识服务和应
用,如医药卫生领域智能检索的服务是通过
对检索词的语义扩展和中英文翻译实现对收
录资源的集成检索,并以关联方式进行展现。
平台目前已发布疾病和药品领域知识图谱,
其中疾病涵盖心脑血管疾病、呼吸系统疾病、
免疫系统疾病、消化系统疾病、肿瘤等。
4CMeKG
[41]
CMeKG 是由北京大学、郑州大学以及鹏城
实验室联合研发的中文医学知识图谱。它
的构建参考了国际疾病分类International
Classification of DiseasesICD)、药物的
解剖学、治疗学及化学分类法Anatomical
Therapeutic ChemicalATC)、SNOMED
CTMeSH 等国际标准的构建方法,同时
对医疗领域相关的临床指南、行业标准、诊
疗规范、医学百科等文本信息进行了收集和
整理,利用自然语言处理与文本挖掘技术,
基于大规模医学文本数据,以人机结合的
方式进行研发。目前已发布 2.0 版本,包含
1 万多疾病、近 2 万中药物1 万多症状和
3000 种诊疗技术,描述医学知识的概念关
系和属性三元组达 156 万。
CMeKG 的医学概念体系分为 15 大类,包
括疾病、药物、诊疗技术及设备、有机体、
解剖学等。基于以上医学概念分类体系,定
义了各类概念的关系描述框架。关系描述框
架包括有概念间的关系(概念关系)和概念
与属性之间的关系(属性关系,一共有
67 种概念关系,如“药物类 - 症状类 - 适应
”,以 194 种属性关系,如同义词、规格、
成分等。另外2.0 版本还增加了基于就诊
科室的疾病分类体系和基于 ICD 编码的疾
病分类体系,并建立了与 UMLS 的映射与
链接。
5OMAHA 知识库
[42][43]
OMAHA 知识库是由浙江数字医疗卫生技
术研究院进行研发和构建的医学领域知识
,主要聚焦于临床医学的内容开发
OMAHA 知识库基于OMAHA Schema
建,OMAHA Schema 是在研究和借鉴了国
内外已有知识图谱(如 UMLS 语义网络
WikidataSchema.orgcnSchema
[44]
等)
Schema 的基础上,充分考虑中文医学知识
的特点,形成的一套符合中文临床环境的医
学知识图谱 Schema,目前包含医学相关的
67 种语义类型和 488 种关系。
OMAHA 知识库由“七巧板”医学术语集(简
称“七巧板”术语集)和“汇知”医学知识
图谱(简称“汇知”图谱)两部分组成。“七
巧板”术语集仅包含了 Schema 中用于定
义相关医学概念的层级关系、属性关系和语
义类型,而“汇知”图谱则包含了 Schema
中剩下的部分,即通过“七巧板”术语集可
以将医学概念定义清晰,通过“汇知”图谱
可以将医学概念、实体间的关系丰富和完善。
例如,(肺癌,子类,肺恶性肿瘤)*(肺癌,
发生部位,肺部)* 和(肺癌,形态学改变,
恶性上皮肿瘤)* “肺癌”概念的本质特征,
用于定义“肺癌”,此类关系存储于“七巧
板”术语集中(肺癌,症状,咯血)*
(肺
癌,相关检查,胸部电子计算机断层扫描)*
是非定义类关系,此类关系存储于“汇知”
图谱中。
“七巧板”术语集目前已积累发布了 98
概念、125 万术语和 292 万关系。它包括三
个核心构件,分别是概念、术语和关系,且
都通过唯一标识符进行表示。概念表示一个
临床观念(clinical idea/clinical thought),
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
14
一个概念可以有多个父代概念;术语是对概
念的语言指称,一个概念下可以有多个术语
同时存在;关系用于建立概念之间的联系,
包括有子类关系和属性关系,其中属性关系
用于表示概念的特征,“发生部位”“形
态学改变”、“临床过程”等。“七巧板”
术语集包含 17 个顶层概念,涉及领域包括
疾病诊断、症状体征、手术操作、检验检查、
基因、药品等;包含 45 种语义类型,如临
床所见、疾病、操作、观测操作、生物等;
包含 54 种语义关系,如子类关系、发生部位、
病理过程、使用的器械等。同时,为了扩展
“七巧板”术语集的使用场景还制定了扩展
集,目前共有三种扩展集类型:与主流医学
术语集如 ICD-10ICD-9-CM-3 和药品医保
目录等建立映射的映射扩展集;与以术语集
概念体系为基础搭建的口语化疾病、症状扩
展集和药品英文扩展集。扩展集还可以基于
已发布的编辑指南由用户自定义创建,从而
满足更多元化的需求。
“汇知”图谱的知识源主要为临床指南、临
床路径、药品说明书、医学书籍和医学文
献等高质量医学资源。“汇知”图谱采用机
器自动处理和人工审核相结合的方式进行构
建,以“七巧板”术语集为基础,最大化地
对实体进行了标准化和概念化。截止到目前,
已发布多个以疾病为核心的图谱数据,包括
15.4 万实体97.8 万三元组,其中 8.5
实体与“七巧板”术语集建立了映射。
3. 国内外医学知识图谱现状分析
1)数据规模
从医学知识图谱规模上来说,国外医学知识
图谱由于开始创建和研究时间早,因此产生
的成果也更丰富,具有数量多和领域宽的特
点。而国内医学知识图谱创建开始时间较晚,
构建领域也多以疾病、药品为中心,数量较
少,领域范围也较窄。
2)维护模式
从维护模式方面来说,国外的医学知识图谱
通常有相关的组织机构进行构建并有固定
的维护流程、更新频率和机制,同时也会与
其他知识图谱建立链接。而国内的医学知识
图谱构建大多是由一些科研项目孵化,或者
是由一些大数据应用相关的企业独自进行尝
试,构建的知识图谱缺乏相应的维护机制,
也较少与其他的知识图谱建立链接。
3)知识整合
从知识整合方面来说,国外已经有组织对行
业发布的生物医学各个细分领域的来源词表
进行整合并建立关联,从而快速构建了一个
大且全的知识图谱,可以适用于多种应用场
景需求。如 UMLS 就将收录的多个来源词
表进行整合,且设计了能够充分兼容各来源
词表的超级叙词表的架构及元数据框架,广
泛应用于语义互操作、信息检索等多个领域。
而国内目前发布的行业标准数量较少、结构
较单一、各自分散,整个行业尚缺乏对资源
的有效整合的意识,未实现对已有资源的最
大化利用。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
15
四、医学知识图谱的特点
( ) 医学知识的特点
医学知识图谱的内容是医学知识,因此它的
特点也是由医学知识决定的。医学知识主要
具有术语多样化、知识分散、质量参差不齐、
知识复杂等特点。
1. 术语多样化
医学术语是医学专业领域中一般概念的词语
指称,广泛分布在医疗记录、医学文献和医
学教科书等信息资源中。目前我国还未建立
规范、统一的医学术语标准,这也就使得相
关从业者在不同场景下使用医学术语较为随
意,最终导致同一个医学概念存在多种术语
表达方式的现象普遍存在。此外,外文翻译
导致的错别字等问题,也是导致术语多样性
的原因。以下 2 个例子可以很好地帮助了解
当前的行业现状。药品概念“阿司匹林”在
维基百科的别称为“乙酰水杨酸”,在 A+
医学百科的别称为 “醋柳酸”和“2-(乙酰
氧基)苯甲酸”;医生在电子病历中一般用
“艾滋”和“艾滋病”作为医学术语使用
在医学文献中则更多的使用“获得性免疫缺
陷综合征”和AIDS,以上四个术语均
指代同一种疾病。
如果想要在医学信息或数据的使用、处理、
加工等过程中达到比较好的效果,计算机就
必须解决术语多样化的问题。计算机首先需
要理解每一个医学术语的含义,并能识别相
同含义的不同医学术语,才能解决当前普遍
存在的语义异构问题,从而提升系统的语义
互操作能力。
2. 知识分散
以疾病为例,目前为止没有任何一个知识源
可以涵盖针对某一疾病的所有知识。产生这
一现象的主要原因有两个:一个是医学知识
更新迭代迅速,新知识无法快速地在原知识
源上更新;另一个是不同的机构由于发布目
的不同,导致所发布的知识源通常仅包含某
些特定维度的知识。例如 2021 年发布的《非
小细胞肺癌诊疗指南》介绍了最新最全面的
非小细胞肺癌病理诊断依据、影像诊断依据
和治疗方案,但不涵盖流行病学、病因和临
床表现等相关内容
[45]
为了让医学知识更好地满足临床实践要求,
必须解决知识分散的问题。在临床工作中,
只有建立全面的医学知识体系,才能为诊疗
过程提供有效的帮助。
3. 知识复杂
医学是经验性总结的科学,主要分为基础医
学、临床医学以及预防医学三大类学科。基
础医学是研究人的生命和疾病本质及规律的
自然科学;临床医学是研究人体疾病发生、
发展规律及其临床表现、诊断、治疗和预后
的科学;预防医学则主要探索疾病在人群中
发生、发展和流行规律及其预防措施
[46]
三大类学科各自分工研究复杂的人体问题,
相应的知识也是复杂多变。单从医学概念上
就能看出医学知识的复杂性,一个医学概念
往往存在多个上位概念和下位概念。以肺炎
为例,肺炎不仅有肺组织炎症和肺实变两个
上位概念,还有新生儿肺炎、间质性肺炎和
支气管肺炎等多个下位概念 *,如 4 所示。
《原发性支气管肺癌临床路径2019
版)》
[47]
中,仅非小细胞肺癌的 GP 方案就
包含了两种不同的用药方案:吉西他滨 +
铂或者吉西他滨 + 卡铂,且这两种用药方案
的用药周期也不同,如图 5 所示。
在《新型冠状病毒肺炎诊疗方案(试行第八
版修订版
[48]
,医学观察期间不同的
临床表现有不同的用药方案,如图 6 所示。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
16
4: 肺炎的多个上位概念和下位概念
5: 原发性支气管肺癌临床路径(2019 年版)
6:新型冠状病毒肺炎诊疗方案(试行第八版修订版)
来源:OMAHA 知识库,白皮书团队整理分析
来源:中华人民共和国国家卫生健康委员会 . 原发性支气管肺癌临床路径(2019 年版)
来源:中华人民共和国国家卫生健康委员会 . 新型冠状病毒肺炎诊疗方案 ( 试行第八版 修订版 )
[J]. 中华临床感染病杂志 , 2021, 14(02): 81–88
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
17
将复杂的医学知识完整的、清晰的表达出来,
可以使计算机在辅助人类开展医疗活动过程
中显得更加智能,让用户获得更加全面的医
学知识。
4. 质量参差不齐
众多的医学知识来源势必会导致知识质量参
差不齐。临床路径、临床指南和医学教科书
等资源的权威性较高,且临床指南会标识证
据等级,相应的医学知识质量高、可信度高。
一些互联网开放平台上的知识由于维护者身
份和审核等原因,其权威性通常有争议。医
学是关乎生命健康的科学,医学知识的专业
性高,应用场景的容错率低,所以计算机必
须拥有高质量和高可信度的医学知识库支撑
才能让使用者信赖。同时,医学知识的证据
等级是临床诊疗流程中十分关键的信息,也
应该纳入医学知识的管理体系中。
( ) 医学知识图谱特殊需求
基于医学知识的特点,医学知识图谱必须具备
一些与通用领域不同的特征才能具有更强的
适用性。医学知识图谱的特殊需求主要体现
在知识表示、知识获取和知识应用三个方面。
1. 知识表示
上文中提到,知识图谱通常由模式层和数据
层组成,模式层定义知识图谱的模型,数据
层基于模式层的模型构建数据。通用知识图
谱模式层的关系类型一般比较简单,层级关
系浅,但数据层的数据覆盖范围广,而医学
知识图谱则恰巧相反。
为了解决医学术语多样化和医学知识分散的
问题,医学知识图谱的模式层建议引入本体
来规范医学概念的内涵,定义丰富的关系类
型和严谨的层级关系。针对复杂的医学知识,
可通过构建复合值类型Compound Value
TypesCTV
1
进行知识的完整表达。例
如在《梅克尔憩室临床路径2019 年版)
[47]
中的 “梅克尔憩室在用憩室切除 + 小肠吻
合术治疗前需要进行血常规检查”这条知识,
可以通过“梅克尔憩室临床路径”作为复合
值类型,建立三条关系:(梅克尔憩室临床
路径,适用对象,梅克尔憩室),(梅克尔
憩室临床路径,治疗方式,憩室切除 + 小肠
吻合术),(梅克尔憩室临床路径,治疗前
检查,血常规)* 来完成对该条知识的完整
表达,如图 7 所示。
7:《梅克尔憩室临床路径(2019 年版)》中的多元关系示例
来源:中华人民共和国国家卫生健康委员会 . 梅克尔憩室临床路径(2019 年版),OMAHA 知识库,白皮书团队整理分析
1
CVT,即复合值类型,是 Freebase 中的一种类型,用于表示复杂数据。例如,城市人口会随时间变化,所以城市、人
口和时间之间是一个三元关系,采用简单的三元组无法表示清楚此类三元关系。Freebase 将城市与一个 CVT 建立关系,
再通过该 CVT 与时间和人口建立关系,从而可以表示清楚相同城市不同时间的不同人口
[49]
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
18
2. 知识获取
通用知识图谱的规模巨大,不可能人工手动
构建,一般由机器高度自动化构建,但往往
最终的知识图谱质量不会很高。医学领域的
应用场景极为严肃,对知识质量要求严苛,
医学知识图谱不可能完全依靠机器自动化构
建。医学知识图谱的构建一般采用人工 +
器的方式,构建全过程需要医学专家积极参
与,以保证数据的准确性。此外,医学知识
图谱构建过程中需要充分收录行业现行标
准、教科书、指南等权威知识源,并同时补
充互联网和临床病历中的医学知识,从而保
证医学知识的完整性。
3. 知识应用
不同医学场景需要使用不同来源或不同证据
等级的医学知识。例如在面向患者的智能问
答应用场景中,基于常规教科书、指南、百
科和互联网开放平台上构建的医学知识图谱
就足以支撑计算机的使用。在决策支持应用
场景中,当存在多个不同的决策建议时,证
据等级的标识有助于医生选择最准确与最合
适的方案,且需要满足医学知识更新的时效
性。因此,医学知识图谱中的每条三元组都
要记录医学知识的来源和相应的证据等级,
以此提高医学知识图谱在不同场景的适用
性。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
19
五、医学知识图谱的构建
医学知识专业性强,医学知识图谱 Schema
构建必须要有医学专家的充分参与才能保证
其正确性和适用性。在整个构建过程中,让
医学专家充分理解知识图谱的相关概念是一
件十分关键的事情。
3)应充分考虑应用需求
如前文所述,部分复杂的医学知识需要较复
杂的 Schema 才可以表示清晰,例如通过
复合值类型来完善知识的表示。但是复杂的
Schema 会给知识抽取带来更大的困难,所
以在构建 Schema 的过程中,应充分考虑到
自身应用的需求,选取能符合自身需求的最
简单的 Schema,以减少知识抽取的难度。
4)应不断维护更新
构建 Schema 时需要深入研究领域的知识,
但不同细分领域的知识有时会有细微的差
别,Schema 也需要随着细分领域构建的深
入而不断维护更新。以疾病细分领域为例,
肿瘤的分期知识复杂,且分期对治疗方案有
着重要的影响,所以肿瘤领域的 Schema
要能够表示出肿瘤的分期、治疗方案、治疗
药物和用法用量等多元的关系,而其他领域
的疾病的 Schema 一般无需定义得如此细
致。因此,Schema 应随着构建和使用的过
程不断完善,从而保证适用性。
5)应有标准化的理念
医学知识图谱构建是一个庞大的工程,依靠
单一机构不可能完成,因此各组织在构建
Schema 时应有标准化的理念,即应在一套
基于共识的标准化 Schema 的基础上进行个
性化的设计。基于标准化的 Schema 构建
出的医学知识图谱才具有更好的互通性,而
互通性高的知识图谱不仅使构建组织自身受
益,也会给行业带来益处。
医学知识图谱在构建路线和构建方式上与通
用知识图谱的基本架构相似,但在一些细节
的处理上,考虑到医学知识的特殊性会有不
同的处理方案。
( ) 构建流程
医学知识图谱的构建一般可分为知识建模、
知识存储、知识抽取、知识融合和知识推理
五个流程。
1. 知识建模
知识图谱的构建一般可以分为自下而上
Bottom-Up)和自上而下Top-Down
两种方式。前者是先从真实数据中抽取实
体和关系,而后归纳总结出知识图谱的
Schema;后者则是先归纳总结出知识图谱
Schema,然后再依据 Schema 进行实体
和关系的抽取。通用知识图谱涉及的知识范
围广、量级大,一般采用自下而上的方式进
行构建;而垂直领域的知识图谱涉及的知识
专业性强、难度高,一般采用自上而下的方
式进行构建。
医学领域的知识专业性极强,且知识类型
特殊,所以医学领域的知识图谱一般采用
自上而下的方式进行构建。医学知识图谱
Schema 在构建过程中,有如下几点需要注
意:
1)应参考成熟的 Schema
国外的医学知识图谱起步较早,已有较多
沉淀,例如 UMLS 的语义网络SNOMED
CT 的语义模型等都已比较成熟。可以在研
究学习这些成熟 Schema 的基础上,结合中
文医学知识的特点构建 Schema
2)应有医学专家充分参与
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
20
2. 知识抽取
知识抽取是知识图谱构建的核心内容,根据
任务类型一般可以分为实体识别、关系抽取
和事件抽取。其中实体识别和关系抽取应用
较广,技术发展也较为成熟,而事件抽取目
前在医学领域内应用还较少,仅在传染病学
和流行病学领域稍有涉及,本文暂只介绍前
两者。
1)实体识别
实体识别又称命名实体识别(Named Entity
RecognitionNER,是指识别文本中的
命名性实体,并将其划分到指定类别的任
[50]
。在医学领域中,主要的实体类型可
分为疾病、症状、药品、检验检查、手术操作、
解剖结构等,如何准确并快速的识别出这些
实体是医学实体识别任务的关键。常见的医
学实体识别技术方法可以分为两种,基于规
则的实体识别和基于机器学习的实体识别。
a)基于规则的实体识别
[51]
基于规则的实体识别一般采用特征词典、分
词、词性标注和正则表达式等技术配合实现。
如果已有医学领域内的词典积累,可以根据
词典 + 分词的方法完成一个简单的基于规则
的实体识别,一般方法包括正向最大匹配法、
逆向最大匹配法、双向匹配法和最佳匹配法
等。基于词典 + 分词方法实现的实体识别对
于词典内的实体识别准确率一般较高,但无
法识别出词典中未包含的实体(即未登录词)
是其最大的问题。
对于未登录词的识别可以采用词典 + 分词 +
词性标注 + 正则的方式进行。以一个简单的
疾病实体识别为例,可以构建疾病的特征词
“病”“症”“综合征”“炎”“炎
症”等,对来源语料进行分词和词性标注,
然后总结出规则 “解剖部位 + 疾病特征词”
即为疾病实体,利用正则表达式提取出符合
规则的实体,然后对提取结果进行验证,保
证规则的正确性和发现新规则。基于已提取
的疾病实体,还可以归纳出疾病的修饰词的
特征词典,如“急性”、“亚急性”、“慢
性”、“良性”、“恶性”等,利用“修饰
+ 疾病”作为规则,则可以进一步抽取更
多的疾病实体。基于规则的实体识别简单流
程如图 8 所示。
基于规则的实体识别实现的技术手段相对简
,在一些特定的场景和语料中的效果较
好,准确率较高,但由于规则适用性窄,所
以一般召回率稍差。同时由于规则需要根据
经验总结,实践中常会出现规则盲点,造成
一些结果的错误,所以需要人工不断完善。
另外规则的泛化性差,不同类型实体的识别
规则往往差别很大,例如前文所提识别疾病
的规则就完全无法应用于药品。所以对于基
于规则的医学实体识别而言,如何维护和更
新大量的不同类别实体的识别规则是重点和
难点。
8:基于规则的实体识别的简单流程
来源:白皮书团队整理分析
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
21
b) 基于机器学习的实体识别
[1]
随着机器学习技术特别是深度学习技术的发
展,基于机器学习的实体识别是当下的主流
方法。其主要思路是将实体识别问题转换为
序列标注问题,需要预先对语料进行标注形
成训练数据集,然后用训练数据集训练生成
实体识别模型,最后利用模型进行实体识别。
基于机器学习的实体识别一般可以分为基于
统计模型的实体识别和基于深度学习的实体
识别两种类型。
基于统计模型的实体识别主要通过人工定义
特征和标注语料来训练模型,通过统计学习
模型来预测标签,从而完成实体识别。统计
模型中标签的预测不只是单纯的与输入的特
征相关,还与之前已经预测完的标签相关,
标签之间互相影响。基于统计模型的方法
一般包括最大熵模型Maximum Entropy
ModelMEM隐马尔可夫模型(Hidden
Markov ModelHMM、条件马尔可夫模
型(Conditional Markov ModelCMM)、
条件随机场模型Conditional Random
FieldsCRF、支持向量机Support
Vector MachineSVM)等。
基于深度学习的实体识别是近些年实体
识别关注和讨论的热点。深度学习技术
应用于实体识别领域主要有卷积神经网
络(Convolutional Neural Network
CNN、循环神经网络Recurrent Neural
NetworkRNN)和引入注意力机制
Attention Mechanism)的神经网络
RNN 中的长短期记忆网络Long Short
Term MemoryLSTM)目前在实体识别中
应用最为广泛,常见的模型有双向长短期
记忆网络Bi-directional Long Short-Term
MemoryBiLSTM+ 条件随机场。相比
于统计模型中通过人工定义特征作为输入
层,基于深度学习的实体识别直接通过文本
中的词或字的向量作为输入,减少了人工定
义特征中对专业知识的依赖。语料中词和
字的向量一般通过预训练获得,常见的词
量(Word Embedding)预训练工具包括
Word2VecBERTBidirectional Encoder
Representation from Transformers)和
Tencent AI Lab Embedding Corpus 等。
近年来,随着人工智能技术的进步
一些新的技术和方法也逐渐在实体识
别领域落地和发展,如多任务学习
Multi-task Learning、迁移学习
Transfer Learning、主动学习Active
Learning、强化学习Reinforcement
Learning)和生成对抗网络Generative
Adversarial NetworkGAN)等
[52]
相较于基于规则的实体识别而言,基于机器
学习的实体识别的召回率高且泛化性好。但
是基于机器学习的实体识别目前大部分都是
监督学习(Supervised Learning),需要依
赖大量的标注语料来进行模型的训练。医学
专业程度高,标注语料的门槛和成本都远远
高于一般领域,所以如何获得大量高质量的
标注语料是目前主要的瓶颈。因此,如何依
靠少量的标注语料训练出一个高质量的模型
成为了目前的研究热点。
2)关系抽取
关系抽取是指从文本中抽取出两个或多个实
体之间的语义关系,自动化的关系抽取一般
可以分为基于模板的关系抽取和基于机器学
习的关系抽取。
a) 基于模板的关系抽取
基于模板的关系抽取主要是通过领域专家,
总结出相应的关系规则和模板,采用模板匹
配的方式进行实体关系的抽取。例如基于下
面的模板即可以提取药品X”与病“Y
之间的适应证关系。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
22
a) 医学实体识别难点
嵌套实体
医学文本中存在大量的嵌套实体,例如“肌
肉疼痛和疲劳”“皮肤和软组织感染”等,
这类嵌套实体给医学实体识别带来了很大的
挑战。
不连续实体
医学文本中存在许多不连续实体,例如“肝
脏可见正常或稍大,有轻触痛”此处“触痛”
实际表示“肝脏触痛”“肝脏”“触痛”
中间有逗号间隔,并不连续,完整抽取困难。
一词多义
医学文本中存在一词多义的实体,例如“甲
胎蛋白可以检查人体血清中甲胎蛋白的含
量”,此处的两个“甲胎蛋白”前者表示一
项检验检查项目,后者表示一种蛋白,两者
差别很大,给实体识别带来了很大的干扰。
b) 医学关系抽取难点
实体间隔远
医学文本由于其文本结构的特点,有时会出
现有关系的两个实体间的间隔过远的现象,
给标注和训练带来很大的挑战。如图 9 所示,
《慢性腹泻基层诊疗指南2019 )》中
“慢性腹泻”与其相关的检查“血常规”
“电解质”和“腹部超声”等间隔过远
[53]
关系复杂多元
如医学知识图谱特点中所述,一些复杂的医
学知识需要借助于复合值类型来表示,但此
类知识在关系标注中难以标注清晰。同时,
由于知识特异性高,语料中可以标注出的该
类关系的量一般较少,所以训练模型对此类
关系的抽取效果往往不佳。
基于模板的关系抽取在一些特殊的场景可以
取得不错的准确率,如药品说明书中的知识
抽取。但是此方法也存在很多问题,例如召
回率低,规则的总结依赖于大量的人力,模
板规则会出现例外和重叠,模板泛化性差等。
b) 基于机器学习的关系抽取
与实体识别类似,基于机器学习的关系抽
取也是近些年关注的重点。按实现方法
基于机器学习的关系抽取可以分为两种
Pipeline 法和 Joint 法。Pipeline 法可分为
两步,即先进行实体识别然后再进行关系抽
取,两步之间独立,关系抽取的结果依赖于
实体识别的效果Joint 法则将实体识别和
关系抽取整合为一步,直接完成实体 + 关系
的输出。
常见的基于机器学习的关系抽取技术和实
体识别相似,包括CRFCNNRNN
LSTM BiLSTM 。由于关系识别的技术
更加复杂,而且标注数据相较于实体识别而
言更加难获取,一些只需要利用少量标注的
半监督学习Semi-Supervised Learning
SSL)的方法也逐渐引起越来越多学者的关
,例如远程监督Distant Supervision
Bootstrapping 等。
3)医学知识抽取难点
由于医学知识的特殊性,医学领域的知识抽
取存在特定的难点。
X”可用于治疗“Y
Y”可用“X”治疗
X”的适应证有“Y
X”可以治疗“Y
……
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
23
2
知识图谱表示学习也称为知识图谱嵌入(Knowledge Graph Embedding)或知识图谱的向量表示,是指将知识图谱中
包含的实体和关系都映射到连续向量空间的方法。此类方法不依赖任何文本信息,获取数据的深度特征,可以直接用数
学表达式计算相似度。
3. 知识融合
知识融合在医学知识图谱的构建中是解决数
据异构和冗余的关键步骤,知识融合一般可
以分为 Schema 融合和实体对齐。
1Schema 融合
Schema 融合主要发生在不同的医学知识图
谱融合过程中。由于医学领域知识较为专业,
Schema 的融合主要采用人工的方式进行以
保证融合的质量。Schema 融合的关键在于
充分理解不同知识图谱的 Schema 后,找到
其中等价的语义类型和属性关系并建立等价
关系。无法建立等价关系的部分,可以寻求
建立层级关系。例如,语义类型“检验检查”
和“操作”,语义关系“症状”和“临床表
”之间都可以建立 IS A 关系。若等价关
系和层级关系都无法建立,则可以视具体的
应用需求,选择保留所需部分。
2)实体对齐
[1]
实体对齐是知识融合中最关键的步骤,其主
要任务就是判断出的实体间的等价关系。在
医学知识图谱的构建过程中,一般流程为:
数据预处理→数据分块→实体对齐。
数据预处理的主要目的是完成数据的正规
化,一般包括对实体名称上空格和标点符号
的处理,大小写的统一,繁体和异体字的转
换,错别字的修正等。数据分块是指根据语
义类型将实体划分为不同的类别,用于保证
只有相同或等价的语义类型中的实体才会进
行融合。根据分块后不同类别实体的名称特
点选择合适的实体对齐方法,给出合适的推
荐结果,然后进行实体对齐。常见的实体间
相似度计算方法包括 Jaccard 数、Dice
系数、编辑距离、机器学习以及近年来关
注较多的知识表示学习Representation
Learning)的方法
2
9:《慢性腹泻基层诊疗指南(2019 年)》示例
来源:中华医学会 , 中华医学会杂志社 , 中华医学会消化病学分会 , . 慢性腹泻基层诊疗指南 (2019 )
[J]. 中华全科医师杂志 , 2020, 19(11): 973–982
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
24
3)医学知识融合难点
Schema 融合工作中,医学知识由于其
专业性较高,实体间的关系类型较为复杂,
所以需要大量的医学专家参与到 Schema
的融合过程中,如何让医学专家顺利的理
Schema 和知识图谱是其中的难点。在
实体对齐时,医学类实体间的一词多义的现
象会对实体对齐带来很大挑战。例如,“肺
癌”在一些场景中可以用来指代“肺部恶性
肿瘤,但实际在严谨的肿瘤形态学定义
中,“肺癌”应为“肺部恶性肿瘤”的子类
概念。一词多义问题在碰到英文缩写时会更
加严重,相同的缩写可能分别指代两个无
任何关联的实体,例如检验项目“甘油三
酯(triacylglycerol”和“甲状腺球蛋白
thyroglobulin”的英文缩写都可以写作
TG”。
4. 知识存储
知识图谱的本质是三元组关系的集合,对于
三元组数据而言,一般可采用关系型数据库
或图数据库来进行存储。
1)关系型数据库
关系型数据库出现较早,发展比较成熟。知
识图谱中的三元组数据很容易利用关系型数
据库来存储,常见的利用关系型数据库存储
知识图谱三元组的方法有:三元组存储、水
平存储、属性表存储、垂直划分存储、全索
引存储和 DB2RDF 。下面选取几种典型
的关系型数据库存储知识图谱的方法做简单
介绍
[8][54][55]
a) 三元组存储
只通过一张表来维护知识图谱数据,表包含
三列,分别对应三元组的主语、谓语和宾语,
所有的三元组数据都存储在一张表中。这种
存储方法通用性较好,但由于所有数据都存
储于一张表中,查询时会有大量的自连接操
作,所以查询的性能较差。
b) 水平存储
水平存储依然是将所有三元组都存储于一张
表中,三元组中的主语实体存储为数据库中
的一行,数据库中的列为该实体的所有属性,
如表 1 所示。该存储方式设计简单,查询单
个实体时可快速展示出其所有属性值。但缺
点也同样明显,主要体现在表格的列数较多,
关系复杂时可能会超出数据库的上限。同时
由于所有属性水平铺开,单个实体不可能在
所有属性上都有值,所以必定会存在大量空
值,空值不仅增加了存储的压力,同时也影
响查询的效率。最关键的是,一旦一个实体
的一种属性拥有多个属性值,该存储方式将
大大受限,如示例中糖尿病的临床表现实际
上有多个,如多食、多饮、多尿和消瘦等,
水平存储并不适合该类多值数据存储
[56]
c) 属性表存储
属性表可以简单的理解为将水平存储中的一
张表按照实体的类型分成多张表,保证同类
实体的属性大致相同,表 1 中的示例数据就
可以依据实体类型拆分成疾病、药品和检验
项目三张属性表,如表 2 所示。属性表的
存储方式可以解决水平存储中列数过多的问
题,但空值问题可以一定程度上减轻但仍无
法完全避免,单属性的多值问题也仍然无法
解决。由于分为多个表进行存储,所以在一
些查询时需要对多个表进行关联,比较影响
性能。
d) 垂直划分存储
垂直划分的存储方法是依据属性将水平存储
的表划分成不同的表,即保证每张表中三元
组的属性都相同,每张表只包含两列,分别
对应三元组的主语和宾语。垂直划分的存储
方法有效解决了水平存储和属性表存储中的
空值和单属性的多值问题,但由于表数量的
增加大大增加了查询时表间连接的数量,影
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
25
响查询性能。同时对于一些特殊查询场景,
如已知三元组的主语和宾语查询谓语时,垂
直划分的存储方式无法有效支持
[57]
2)面向 RDF 三元组数据库
RDF 是万维网联盟World Wide Web
ConsortiumW3C提出的一组标记语言的
技术标准,以便更好地描述和表达网络资源
的语义关系。它是语义万维网实现的关键技
术之一,也是语义信息描述的有效手段,基
本数据模型包含资源、属性和陈述三部分
[58]
RDF 是知识图谱开放和发布的最主要的格
式之一,面向 RDF 的三元组数据库在存储
知识图谱三元组时有格式上的优势,其可
以支持 RDF 的标准查询语言 SPARQL
常见的 RDF 三元组数据库包括:开源系统
JenaRDF4JRDF-3X gStore 等;
业系统 VirtuosoAllegroGraphGraphDB
BlazeGraph
[1]
3)原生图数据库
图数据库是数据库领域为更好的存储和管理
图模型数据而开发的数据库管理系统,其
对图数据的存储和查询的效率优于关系型数
据库。从数据模型角度来看,知识图谱本身
是一种图数据,所以知识图谱在本质上更适
合使用图数据库进行存储。常见的原生图数
据库有Neo4jJanusGraphOrientDB
Cayley
[1]
总体而言,关系型数据库的优势在于技术成
,面向 RDF 的三元组数据库优势在于格
式标准,原生图数据库优势在于存取效率。
医学知识图谱的存储可以选用多种数据库同
时存储的方式,分别适用于不同的管理和应
用场景,但是应注意不同数据格式之间的同
步和转换问题。
5. 知识推理
[52]
知识推理是知识图谱构建的重要组成部
来源:OMAHA 知识库,白皮书团队整理分析
来源:OMAHA 知识库,白皮书团队整理分析
实体 适应证 禁忌证 不良反应
阿司匹林 发热 血友病 恶心
二甲双胍 糖尿病 心力衰竭 恶心
2:属性表存储的知识图谱数据示例 *
实体 临床表现 治疗药物
糖尿病 多饮 二甲双胍
发热 阿司匹林
实体 标本类型 适应证
血常规 全血 白血病
尿常规 尿液 尿路感染
1:水平存储的知识图谱数据示例 *
实体 临床表现 治疗药物 标本类型 适应证 禁忌证 不良反应
尿 多饮 二甲双胍
阿司匹林
阿司匹林 发热 血友病 恶心
二甲双胍 糖尿病 心力衰竭 恶心
全血 白血病
尿 尿液 尿路感染
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
26
,知识推理是指在已有的知识图谱的基
础上,通过进一步挖掘出实体间隐含的知识
或识别出错误关系的过程
[59][60]
。知识推理
在知识图谱构建过程中主要应用于知识图
谱补全Knowledge Graph Completion
和知识图谱去噪Knowledge Graph
Cleaning
[61]
。知识图谱补全是基于已知的
知识图谱中的关系推理出未知的关系;知识
图谱去噪则是对三元组正确性的判断和对整
个知识图谱逻辑上一致性的校验。
逻辑学上将推理分为演绎推理Deductive
Reasoning
[62]
和归纳推理Inductive
Reasoning
[63]
两种方式。前者是自上而下
的形式化推理,是在指定前提的情况下,推
断出必然成立的结论;而后者则是自下而上
的非形式化推理,是基于已有的部分观察得
出一般结论的过程。例如,基于前提“肺部
疾病的发病部位为肺部”和“肺炎是一种肺
部疾病”,可推理出“肺炎的发病部位为肺
部”,这一推理过程为演绎推理;而“大部
分参与临床试验的二型糖尿病患者服用二甲
双胍后显示有效”,所以推理出“二甲双胍
对大部分的二型糖尿病患者有效”,这一推
理过程为归纳推理。基于推理的分类方法,
知识图谱的推理主要技术手段也可以分为基
于演绎的知识推理和基于归纳的知识推理。
常见的基于演绎的知识推理的技术有描述逻
辑(Description LogicDL)、Datalog
产生式规则等;常见的基于归纳的知识推理
的技术有基于图结构的推理、基于规则学习
的推理、基于知识图谱表示学习的推理和基
于强化学习的推理等
[1]
医学知识图谱所采用的知识推理方法应以演
绎推理为主。因为医学知识中包含大量的层
级关系,而基于层级关系可以设计和完成大
量的演绎推理。在前文所述的演绎推理例子
中,可以推理出“肺部疾病”所有的子类疾
病的发病部位都应该是“肺部”或“肺部
的子类。利用这一特点,可以快速地完成大
量关系的补全和校验。
( ) 构建方式
当前知识图谱的构建方法主要分为机器构建
和人工构建两种。机器构建的方法可快速产
生大量的知识图谱数据,但是质量难以保证
人工构建速度慢,但结果的质量会更高。通
用知识图谱的构建由于资源多,数据量大,
所以机器构建的方式是主流;但医学领域一
般对知识的质量都有较高要求,所以医学知
识图谱构建过程中人工的参与应更多也更加
必要。在医学知识图谱的构建过程中,机器
应主要用于提高效率,辅助快速产生知识,
而人工则应主要用于质量的控制,所以如何
平衡二者的参与度是关键。
1. 机器构建
在医学知识图谱的构建中,机器构建主要用
于解决人工效率低的问题,所以机器构建的
技术方法选择应以最大化减少人力为主要判
断标准。具体来说有以下几点原则:
1)技术成熟度优先
知识图谱构建技术的研究和发展速度很快,
大量的新理论和新技术在科研中被应用。但
是构建临床实际应用级别的医学知识图谱不
应执着于高新技术,技术的成熟性和稳定性
才是保证数据质量的关键。
2)技术按需选取
医学知识图谱的构建不能寄希望于依靠单技
术或少量几种技术解决所有问题,而应该更
加细致地拆分任务,针对不同的细分任务选
取合适的技术方法,才能达到更好的效果。
3)技术准确率优先
医学知识图谱质量要求高,机器自动处理的
结果中错误率过高不但会降低整体数据质
量,而且人工纠错会带来更多的工作量。因
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
27
此技术应定位在保证简单知识的准确抽取,
并且准确率的考量要优先于召回率。
2. 人工构建
人工构建医学知识图谱可以一定程度上解
决机器构建的数据质量的问题,同时人工
产生的标注数据也可以用于机器学习的模
型训练,但人工构建的主要问题是效率相
对比较低下。近些年,随着互联网技术的
发展,知识型众包正逐渐发展起来。众包
Crowdsourcing)是一种通过将工作先分
配给很多非特定的参与者再合成为最终结果
的模式
[64]
。众包相较于传统的人工方式
在效率和灵活性上更有优势,所以众包适合
用于知识图谱的构建。采用众包的方式进行
医学知识图谱构建有以下几点原则:
1)较高的准入资质
医学专业性很强,要确保众包构建出的医学
知识图谱不出现质量问题,就一定要保证参
与人员的资质。需要针对不同的领域,选取
不同的医学从业者,如临床医生、护士、医
学生和医技专业人员等,同时也要做好资质
审核。
2)全面的知识培训
医学知识图谱构建是一个跨学科的任务,需
要医学专业人员有一定的知识图谱的基础
知识。因此,在正式开始任务前,需要对任
务执行者进行知识图谱基础知识的培训和讲
解,然后可以安排测试,通过测试后方可正
式开始任务,确保任务执行者充分理解任务。
3)精细的任务划分
在医学知识图谱的构建流程中,不同工作所
需要的人工参与度不同。如何选取出其中最
重要且最需要人工的部分来进行众包构建是
关键。例如,构建 Schema 一定需要领域专
家大量参与,知识抽取和知识融合则需要人
工对机器的结果做审核和质量控制,而知识
推理则一般只需要人工定义规则。
其次,尽量选取易达成共识性的知识源,从
而避免在任务过程中相关专业人员因个人的
原因出现分歧。例如,可以选取医学教科书、
临床指南、临床路径和药品说明书等权威性
较高的知识源,尽量避免个人经验类的知识。
4)易用的协作平台
医学知识图谱构建任务比较繁琐,所以搭建
一个易用的协作平台很有必要。通过协作平
台,任务管理者可以更简单的设置任务和分
发任务,任务执行者可以更方便和简单的完
成任务。例如,通过协作平台将大任务拆分
成小任务,分多次的分发以保证参与度与完
成度通过将填空型任务转换为选择型任务,
将选择型任务转换为判断型任务等方式来简
化任务
[7]
5)健全的质控机制
由于参与人数众多,采用人工众包的方式构
建医学知识图谱同样也会存在质量隐患
所以建立一个良好的质量控制体系也尤为关
键。常见的方法有:相同任务安排双人独立
完成后,对一致性进行检测;任务结果的人
工抽样检测;与成熟的医学知识图谱对比评
估等。
综上所述,医学知识图谱离不开机器与人工
的配合。找到二者的平衡点,并最大化地发
挥机器的能力以及减少人的工作量,同时保
障数据的质量,才是快速且高质量构建医学
知识图谱的关键。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
28
六、医学知识图谱的应用
语义搜索则不拘泥于用户所输入请求语句的
字面本身,而是透过现象看本质,准确地捕
捉到用户所输入语句后面的真正搜索意图,
从而更准确地返回最符合用户需求的搜索结
[65]
。将知识图谱应用于搜索是当前实现
语义搜索的有效解决方案。知识图谱描述了
事物的分类、属性和关系,具有丰富的语义
信息,可以为语义搜索提供极大的底层支持。
基于医学知识图谱的语义搜索目前被用于医
学百科知识、临床指南/ 文献、医学健康资讯、
医疗保健信息等内容的推荐。部分使用了语
义搜索技术的医学信息搜索平台举例如表 3
所示。
3:部分使用语义搜索技术的医学信息搜索平台简介
搜索平台名称
国家 提供搜索的内容 简介
OmniMedical
Search
[66]
美国 医疗保健信息
About.com 和华盛顿报推荐为最好的医疗搜索引擎,它可以搜索网页、
图片或论坛,从而链接得到高质量的保健和医疗信息,但目前已停止服务。
WebMD
[67]
美国
医学百科知识
医学健康资讯
医疗保健信息
WebMd 是美国最大的医疗健康服务网站,拥有全球最丰富的健康医疗
资讯,同时也是全球医师最愿意付费上网的专业网站。WebMD 为病人
和医生建立了一个网上了解和交流医疗信息的通道,其所提供的医疗资
讯与服务皆是业界的领导者,除了汇集全美医师的临床报告,还有最新
最完整的各种医疗资料库。
腾讯医典
[68]
中国
医学百科
医学健康资讯
医学科普知识资讯平台,提供专业可信赖的医学知识。引进海外优质医
学健康内容,提供疾病的症状、疾病病因诊断治疗预防等医疗百科。
AskBob
医生站
[69]
中国
医学百科知识
临床指南 / 文献
AskBob 支持医学百科的知识搜索,包括疾病、药品、症状、指南、病例、
检验检查等。区别于其他医学知识查询工具,AskBob 支持用户使用口
语化的提问方式,运用自然语言处理技术进行语义识别,提取关键信息,
展示精准匹配结果。
搜狗明医
[70]
中国
医学百科知识
医学健康资讯
搜狗搜索旗下医疗垂直搜索频道,聚合权威的知识、医疗、学术网站,
为用户提供包括维基百科、知乎问答、国际前沿学术论文等在内的权威、
真实内容。
医脉通
[71]
中国
临床指南 / 文献
医学健康资讯
面向医生、医疗行业从业者及医学知识爱好者的专业医学信息网站。
百科名医
[72]
中国
医学百科知识
医学健康资讯
专注于医学科普的专业医学网站。内容涵盖了疾病、药物、治疗、护理、
康复、营养急救、中医等几乎所有医学相关领域。拥有原创医疗类科普
文章和问答数十万余条,还有医学科普视频数万集。
来源:白皮书团队整理分析
目前,医学知识图谱主要应用于医学领域的
语义搜索、知识问答和临床决策支持等场景,
随着研究的深入以及行业的发展,医学知识
图谱也开始应用于药物研发、公共卫生事件
应对等新领域。
( ) 语义搜索
传统的搜索主要为关键词搜索,当用户向搜
索引擎提交关键词查询请求时,搜索引擎通
过关键词匹配的方式,在数据库中检索满足
用户查询请求的内容,然后将结果反馈给用
户。这种搜索引擎对查询的处理局限于词的
表面形式,缺乏知识处理能力和理解能力。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
29
基于知识图谱的语义搜索主要包括四个步
[7]
,如图 10 所示。
第一步,搜索意图理解。即从用户提交
的搜索内容中识别出用户希望查找的目
标实体,并为执行下一步工作生成目标
实体的查询条件;
第二步,目标查找。用查询语句(如
SPARQL)或某种计算方法在知识图谱
中查找出目标实体及其相关内容;
第三步,结果呈现。对搜索结果进行排
序和分类组织后呈现给用户;
第四步,实体探索。拓展目标实体之外
的相关内容并呈现给用户,增加搜索结
果的多样性。
AskBob 医生站(以下简称 AskBob)为
例来直观的了解基于知识图谱的语义搜索过
[69]
用户在 AskBob 搜索“糖尿病药物”
第一步,通过自然语言处理,系统可以准确
地识别用户想搜的是“治疗糖尿病的药物是
什么?”,借助知识图谱中的关系“治疗糖
尿病的药物是降糖药物”,明确搜索的目标
实体是“降糖药物”第二步,“降糖药物”
为实体在数据库中进行查询;第三步,匹配
“降糖药物”具体药品名 “阿卡波糖片”
“格列吡嗪胶囊”等以及相关“降糖药物”
指南推荐给用户;第四步,通过知识图谱发
现“降糖药物”的关联实体有“糖尿病”、
2 型糖尿病、“糖尿病黄斑水肿”等,
将结果也推荐给用户。整个搜索过程展示如
11
10:基于知识图谱的语义搜索的基本过程
来源:肖仰华 . 知识图谱:概念与技术 [M]. 电子工业出版社 , 2020
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
30
( ) 知识问答
基于知识库的问答Knowledge-Based
Question AnsweringKBQA也称知识问答,
主要依托于大型的知识库,将用户的自然语
言问题转化成结构化查询语句,直接从知识
库中导出用户所需的答案
[1]
。知识问答与搜
索的最主要区别在于:首先,搜索是将结果
以文档承载答案的方式,而知识问答则直接
将答案交付给用户;其次,搜索的用户以关
键词组合的形式表达自身的需求,需掌握一
定的搜索技巧,而知识问答则允许直接以自
然语言的方式表达问题
[1]
。图 12 为在微软
必应中的知识问答示例,当用户提交问题“人
类已消灭的第一个传染病是?”,系统直接
返回了一个准确的答案 “天花”
[73]
11:在 AskBob 中搜索“糖尿病药物”
12:在微软必应中输入问题“人类已消灭的第一个传染病是?”
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
31
知识问答强调以自然语言问答为交互形式从
智能体获取知识,不但要求智能体能够理解
问题的语义,还要求基于自身掌握的知识和
推理计算能力形成直接的答案。由于答案是
以关联图的形式组织的,所以不仅能提供精
准答案,还能通过答案关联进行扩展、推理
等查询,使知识展示更丰富。KBQA 已经成
为各种智能问答系统的标准组件配置
[2]
。知
识图谱由于具有知识丰富、结构化程度高和
易于推理等特点,是 KBQA 的知识库中最
重要组成部分之一。
医学知识较其他领域相比专业性更高,非专
业人士很难通过自主理解一堆资源文档,来
精准地找到相关问题的答案。因此,基于医
学知识图谱的 KBQA 可以帮助患者更加快
捷、便利地获得问题的答案,适用于医学知
识科普、智能导诊、自诊等领域。下面以
Magi 和讯飞健康为例,简单介绍基于医学
知识图谱的 KBQA 在医学知识科普、智能
导诊的应用情况。
Magi 是来自中国的 Peak Labs 团队研发的
基于机器学习的信息抽取和检索系统,它不
间断的从互联网自然语言文本中提取各种领
域知识,并结构化保存在知识库中,然后通
过终身学习持续聚合和纠错,进而为人类用
户和其他人工智能提供可解析、可检索和可
溯源的知识体系。用户输入问题、关键词或
表达式后,如果知识库中发现可能与用户输
入相关的,能解决用户输入问题的,或者其
他适合展示给用户的知识片段,系统将以一
些特定的形式优先展示给用户,省去用户从
累牍连篇的网页文本中寻找答案的时间
[74]
例如,输入问题2 型糖尿病有哪些症状?”
Magi 将相关知识分类聚合成标签返回给用
户。其中包括 2 型糖尿病症状的相关数据,
数据的可信程度,数据的主要学习来源链接,
以及 2 型糖尿病相关实体1 型糖尿病的信息,
如图 13 所示。
“讯飞健康”是由科大讯飞联合“学习强
13:在 Magi 中输入问题“2 型糖尿病有哪些症状?”
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
32
国”学习平台共同推出的利用语音交互、自
然语言理解、医学认知智能与推理等技术,
实现智能导诊和疾病自查功能的智能服务助
[75]
在用户输入相关症状描述后,借助知识图谱
中疾病症状与科室的关系,系统会初步划分
科室,如图 14 所示。
CDSS,一般由知识库、推理机和人机交
互接口三个部分组成,其中知识库是核心
[76]
医学知识图谱中包含丰富的医学基础知识,
可以作为 CDSS 知识库中的重要组成部分,
它为 CDSS 的推荐结果提供了可解释的依
据,能够协助系统从辅助诊断、治疗方案推
荐、合理用药检测等方面为临床医务人员提
供决策支持。
1. 辅助诊断
CDSS 可以利用医学知识图谱中疾病的临床
表现等相关关系,辅以其他类型知识,进行
智能诊断。在医生下诊断前,通过病历信息
中患者的主诉和个人信息自动提示患病系统
分类以及可能的疾病,并按照高到低的顺序
排序;在医生下诊断后,在看诊流程中主动
预警,医生所在诊断如出现误诊、漏诊、依
据不足时给出风险提醒,同时给出修正意见。
例如,患者同时出现了“视力下降”和“血
糖升高”的症状,通过知识图谱查询和推理
出同时具有“视力下降”和“血糖高”症状
的疾病是“糖尿病性视网膜病变”CDSS
可将结果在下诊断前和下诊断后提示给医
生,以达到医生辅助诊断的效果。目前行业
内此类产品有百度灵医智慧 CDSS
[77]
、嘉和
美康 CDSS
[78]
和惠每 Dr.Mayson
[79]
等。
2. 治疗方案推荐
通过知识图谱中疾病与操作、治疗药物的关
系可以实现治疗方案的推荐。例如患者的诊
断为肝衰竭,并在检验检查中发现该患者肝
衰竭的患病原因是乙肝病毒感染。通过知识
图谱的相关推理,CDSS 为医生推荐相关抗
病毒治疗方案。目前行业内绝大多数 CDSS
产品中都包含治疗方案的推荐功能,以东软
集团 CDSS 产品为例,系统可以通过电子
病历、检验检查报告、诊断信息、医嘱信息
抽取结构化医疗数据,然后基于知识库与推
理规则,向医生推荐可靠的治疗方案
[80]
14:在讯飞健康中输入问题“头疼挂哪个科”
( ) 临床决策支持
临床决策支持(Clinical Decision Support
CDS)是指运用相关的、系统的临床知识
和患者基本信息及病情信息,向临床医务工
作者提供加强医疗相关的决策和行动的信
息,提高医疗质量和医疗服务水平。具有临
床决策支持功能的系统,称为临床决策支持
统(Clinical Decision Support System
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
33
3. 合理用药检测
合理用药检测系统(Prescription Automatic
Screening SystemPASS)最重要的功能
是处方(医嘱)审查。基于知识图谱中药物
与不同年龄人群、不同疾病人群的适应或禁
忌关系,药物与不同病因导致的疾病的治疗
关系,药物与药物副作用、药物之间的相互
作用,注射类药物之间的配伍禁忌等内容,
系统可以及时发现潜在的不合理用药问题并
给出预警。目前,国内市场上比较有知名
度的 PASS 供应商有四川美康
[81]
和杭州逸
[82]
( ) 其他
随着技术和行业的发展,目前知识图谱也被
应用于药物研发、公共卫生事件的预警场景
中。
1. 药物研发
近年来,人工智能辅助药物研发逐渐成为研
究的热点。知识图谱可应用于药物研发的知
识的聚类分析,帮助提出新的可以被验证的
假说,从而加速药物研发的过程,降低研发
成本
[83]
Benevolent AI Open Phacts
是两个医学知识图谱应用于药物研发领域的
典型案例Benevolent AI 是一家来自伦敦
的人工智能制药公司,在 2020 2 月,该
公司在《柳叶刀》杂志发表论文称,其和帝
国理工学院(Imperial College London)合
作研究,发现了经典 JAK 激酶抑制剂巴瑞
尼(Baricitinib)或可用于治疗新型冠状
病毒肺炎,这一研究借助了深度学习和知识
图谱技术
[84]
Open Phacts 则是欧盟的一
个项目,该项目构建了一个开放数据访问平
台,通过整合来自各种数据源的药理学数据
构建知识图谱,从而加速药物研制中的分子
筛选工作,目前已吸引辉瑞和诺华等制药巨
头参与
[85]
2. 公共卫生事件应对
新冠疫情突然席卷全球,引发了全世界对突
发公共卫生事件的关注,如何建立事件预警
和快速响应机制成为大家研究的重点。在公
共卫生事件的一些场景中,如流行病学调查
和疫情发生事件的分析和预警等,知识图谱
采用图存储数据的理念可以起到非常大的帮
助。例如,利用知识图谱的形式可以直观地
表示流行病调查中的人员分布、人员活动轨
迹、发病时间等信息,基于图展示出的信息
可以更方便的用于病例之间相关性的分析,
更快地分析和梳理出感染源头。另外,对疫
情发生事件的脉络进行分析,通过找到多个
事件存在的因果关系,构建疫情相关事件知
识图谱。事件知识图谱可以帮助发现潜在的
公共威胁,从源头上预防和降低舆情风险,
也可以实现对网络舆情的有效预测,有效防
范舆情事件发生及蔓延,为疫情防控营造有
利的舆论场。针对以上领域,目前国内外已
有相当多的科研项目正在开展中
[86]
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
34
七、医学知识图谱的未来展望
造成医疗事故的风险。同时,如果因数据质
量问题,系统频繁地给出错误提示,反而会
使临床医务工作者对系统的信任度会大大降
低,导致忽略掉系统给出的正确风险提示。
医学知识图谱的质量问题是一个永恒的话
题,且随着应用的深入,对质量的要求只会
越来越高。为满足医疗行业对质量上的要求,
应建立完善的知识图谱质量控制体系。知识
图谱的质量控制应贯穿于知识图谱的构建的
全周期,构建前应对数据来源的质量做严格
把控;构建中应建立良好的人机配合模式,
确保医学专业人员的指导与参与;构建后的
应进行准确性验证和审核,还需要根据应用
情况保持维护更新。
( ) 标准化程度更好
随着医疗行业对知识图谱应用程度的加深,
在临床决策支持、药物研发、公共卫生事件
应对等场景下,联合使用多个知识图谱的需
求会越来越多。在多个知识图谱联合使用的
场景中,知识图谱的标准化程度显得尤为关
键。标准化程度高的知识图谱之间互通性好,
可以更好地联合使用,从而降低应用的成本,
提升应用体验。
推动医学知识图谱标准化管理体系的建立,
可以促进医学知识图谱标准化的实现。在行
业层面,各利益相关方应互通有无、成果共
享,促进已有成果的使用,避免重复工作
自下而上地促进国内医学知识图谱相关标准
的建立,包括 Schema 标准、技术标准和其
他相关标准等;在政府层面,应自上而下地
积极推动医学知识图谱相关标准的研究和制
定,并为行业发展提供相关支持,促进行业
更健康快速地发展。
医学知识图谱是医学与大数据的结合,知识
图谱具有强大的语义处理与开放连接能力,
其专业性、规范性和良好的知识表示方式可
以从医学词典、医学标准和电子病历等来源
获高质量数据,为语义搜索、知识问答和决
策支持等提供底层支撑。医学知识图谱的研
究能推进海量数据的智能处理,催生上层智
能医学的应用。结合行业应用现状,未来医
学知识图谱将在数量、质量、标准化程度
和分级应用等方面持续改进和提升,从而更
好地满足医学人工智能产业化发展的应用需
求。
( ) 数量更大
医学知识图谱作为各个应用场景中底层的数
据基础,其数据的数量和覆盖度非常重要。
医学相对于其他领域知识更丰富,同时,随
着医学的发展,仍然在不断产生大量新知识,
应用中知识的不完备会严重的影响相关产品
的用户体验,大大降低产品的价值。当前的
很多应用已经因为知识量级问题而凸显出产
品的不足,所以在未来,用户将会对知识图
谱中的知识量级提出更高的要求。
为满足医疗行业对数量上的要求,应发展稳
定、快速的自动化知识图谱构建技术,也可
以通过行业内的合作共建共享知识图谱。行
业应当推动更多质量高的知识源,如高质量
电子病历和新医学知识库的开放共享,为医
学知识图谱的构建保障优质来源。
( ) 质量更高
医学知识图谱是直接面向医学领域的应用,
大部分场景中对数据的容错率远低于其他领
域,所以对医学知识图谱的质量要求极高。
例如,在临床决策支持中,错误的知识就有
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
35
( ) 分级应用更明显
医学知识图谱的应用场景丰富,不同场景对
知识的需求不一,这也催生了对医学知识分
级管理的需求。例如,一般百科类的知识即
可满足面向患者的产品的使用需求,面向医
生的则需要更专业的知识;目前,在医学领
域,来源于临床指南的知识部分有证据水平
的划分,实现了对知识的等级管理。但现阶
段的医学知识图谱中知识的等级管理都还较
为粗犷,大多都尚未涉及到知识分级管理。
知识分级管理是未来知识图谱管理的一个重
要发展方向,从知识的来源、证据等级等角
度,制定知识分级规则,建立健全的分级管
理体系,可以满足在不同场景中知识图谱的
多样化应用需求。
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
36
八、结语
同打造一个知识积累和开放共享的生态,促
进国内医学知识图谱的快速发展,从而使医
学知识图谱能够快速沉淀并在更多的产品中
实现应用。相信在不久的将来,国内医学知
识图谱就会进入高速发展、广泛应用的美好
时代。
在人工智能的发展过程中,数据和知识同样
重要。现阶段虽然是主要以深度学习为代表,
用数据驱动的人工智能发展火热,但是知识
才是人工智能的基石。医学知识图谱是一个
长期的工程,并且需要行业的共同参与。目
前,国内的医学知识图谱发展尚处于初始阶
段,我们迫切的需要行业各方一起努力,共
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
37
参考文献
[1]
王昊奋 , 漆桂林 , 陈华钧 主编 . 知识图谱:方法、实践与应用 [M]. 电子工业出版社 , 2019.
[2]
陈华钧 . 知识图谱导论 [M]. 电子工业出版社 , 2021.
[3]
SINGHAL A. Official Google Blog: Introducing the Knowledge Graph: things, not strings[J]. 2012.
[4]
闫树 , 魏凯 , 洪万福 . 知识图谱技术与应用 [M]. 人民邮电出版社 .
[5]
侯梦薇,卫荣,陆亮,兰欣,蔡宏伟 . 知识图谱研究综述及其在医疗领域的应用 [J]. 计算机研究与发展 , 计算机研
究与发展 , 2018, 55(12): 2587.
[6]
徐增林王雅芳 . 知识图谱技术综述 [J]. 电子科技大学学报 , 2016, 45(4): 18.
[7]
肖仰华 . 知识图谱:概念与技术 [M]. 电子工业出版社 , 2020.
[8]
知识图谱发展报告(2018[EB/OL]. (2018-08). http://cips-upload.bj.bcebos.com/KGDevReport2018.pdf.
[9]
QUILLAN M R. Semantic Memory, in Minsky, M.[J]. Semantic Information Processing, 1968.
[10]
GRUBER T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2):
199–220.
[11]
STUDER R, BENJAMINS V R, FENSEL D. Knowledge Engineering : Principles and methods[J]. Data &
Knowledge Engineering, 1998, 25(1/2): p.161-197.
[12]
BERNERS-LEE T, CAILLIAU R. WorldWideWeb: Proposal for a HyperText Project[J]. IEEE Computer Society,
1990.
[13]
[13] American, a division of Nature America, Inc., 2001, 284(5): 34–43.
[14]
SHADBOLT N, BERNERS-LEE T, HALL W. The Semantic Web Revisited[J]. IEEE Intelligent Systems, 2006,
21(3): 96–101.
[15]
BERNERSLEE T. Linked Data[J]. International Journal on Semantic Web & Information Systems, 2006, 4.
[16]
李涛 , 王次臣 , 李华康 . 知识图谱的发展与构建 [J]. 南京理工大学学报(自然科学版), 2017, 41(1): 22–34.
[17]
What is Googles Knowledge Graph? • Yoast[EB/OL]. [2021-11-02]. https://yoast.com/google-knowledge-
graph/.
[18]
Platform | Cyc[EB/OL]. [2021-11-02]. https://cyc.com/platform/.
[19]
WordNet | A Lexical Database for English[EB/OL]. [2021-11-02]. https://wordnet.princeton.edu/.
[20]
ConceptNet[EB/OL]. [2021-11-02]. https://conceptnet.io/.
[21]
Home[EB/OL]. DBpedia Association, [2021-11-02]. https://www.dbpedia.org/.
[22]
Wikidata[EB/OL]. [2021-11-02]. https://www.wikidata.org/wiki/Wikidata:Main_Page.
[23]
BabelNet | 最大的多语言百科全书式的字典和语义网络 [EB/OL]. [2021-11-02]. https://babelnet.org/.
[24]
Read the Web :: Project Overview[EB/OL]. [2021-11-02]. http://rtw.ml.cmu.edu/rtw/overview.
[25]
Home | Yago Project[EB/OL]. [2021-11-02]. https://yago-knowledge.org/.
[26]
GeoNames[EB/OL]. [2021-11-02]. https://www.geonames.org/.
[27]
Schema.org - Schema.org[EB/OL]. [2021-11-02]. https://schema.org/.
[28]
Microsoft Concept Graph and Concept Tagging Release[EB/OL]. [2021-11-02]. https://concept.research.
microsoft.com/.
[29]
OpenKG.CN – 开放的中文知识图谱 [EB/OL]. [2021-11-02]. http://openkg.cn/.
[30]
OpenHowNet[EB/OL]. [2021-11-02]. https://openhownet.thunlp.org/.
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
38
[31]
知識工場 [EB/OL]. [2021-11-02]. http://kw.fudan.edu.cn/.
[32]
Zhishi.me[EB/OL]. [2021-11-02]. http://zhishi.me/.
[33]
北京大学中文百科知识图谱 -PKU-PIE 知识库 - 开放知识图谱 [EB/OL]. [2021-11-02]. http://knowledge.omaha.
org.cn/dataset/pku-pie.
[34]
XLore[EB/OL]. [2021-11-02]. https://xlore.org/.
[35]
Unified Medical Language System (UMLS)[EB/OL]. [2021-11-02]. https://www.nlm.nih.gov/research/umls/index.
html.
[36]
SNOMED - Home | SNOMED International[EB/OL]. [2021-11-02]. https://www.snomed.org/.
[37]
Linked Life Data - A Semantic Data Integration Platform for the Biomedical Domain[EB/OL]. [2021-11-02]. http://
linkedlifedata.com/.
[38]
医学信息研究所 - 图书馆 [EB/OL]. [2021-11-02]. https://www.imicams.ac.cn/.
[39]
中医药学语言系统 - 中医药在线 [EB/OL]. [2021-11-02]. http://ad.cintcm.com/article_general.jsp?id=13.
[40]
知识图谱 - 医药卫生知识服务系统 [EB/OL]. [2021-11-02]. http://med.ckcest.cn/knowledge-graphs.html.
[41]
中文医学知识图谱 CMeKG[EB/OL]. . http://cmekg.pcl.ac.cn/.
[42]
HiTA 术语 [EB/OL]. [2021-11-02]. https://term.omaha.org.cn/.
[43]
HiTA 知识图谱 [EB/OL]. [2021-11-02]. https://kg.omaha.org.cn/.
[44]
cnSchema[EB/OL]. [2021-11-02]. http://cnschema.org/.
[45]
中国临床肿瘤学会指南工作委员会 . 中国临床肿瘤学会 (CSCO) 小细胞肺癌诊疗指南 2021[M]. 人民卫生出版社 .
[46]
葛均波 , 徐永健 , 王辰 . 内科学(第 9 版)[M]. 人民卫生出版社 .
[47]
国家卫生健康委办公厅关于印发有关病种临床路径(2019 年版)的通知 [EB/OL]. [2021-11-02]. http://www.nhc.
gov.cn/yzygj/s7659/202001/b3c9e097b0c1471a969d7a63be471759.shtml.
[48]
中华人民共和国国家卫生健康委员会 . 新型冠状病毒肺炎诊疗方案 ( 试行第八版 修订版 )[J]. 中华临床感染病杂志 ,
2021, 14(02): 81–88.
[49]
Basic Concepts | Freebase API (Deprecated)[EB/OL]. Google Developers, [2021-11-05]. https://developers.
google.com/freebase/guide/basic_concepts?hl=zh-cn.
[50]
CHINCHOR N. MUC7 Named Entity Task Definition[J]. 1997.
[51]
周昆 . 基于规则的命名实体识别研究 [D]. 合肥工业大学 , 2010.
[52]
朱小燕 , 李晶 , 郝宇 , . 人工智能:知识图谱前沿技术 [M]. .
[53]
中华医学会 , 中华医学会杂志社 , 中华医学会消化病学分会 , . 慢性腹泻基层诊疗指南 (2019 )[J]. 中华全科医
师杂志 , 2020, 19(11): 973–982.
[54]
RDF Access to Relational Databases[EB/OL]. [2021-11-02]. https://www.w3.org/2003/01/21-RDF-RDB-
access/#SyntaxAndSemanticsOfN3.
[55]
黄恒琪 , 于娟 , 廖晓 , . 知识图谱研究综述 [J]. 计算机系统应用 , 2019, 28(6): 1–12.
[56]
PAN Z, HEFLIN J. DLDB: Extending Relational Databases to Support Semantic Web Queries[C]//PSSS1 -
Practical and Scalable Semantic Systems, Proceedings of the First International Workshop on Practical and
Scalable Semantic Systems, Sanibel Island, Florida, USA, October 20, 2003. 2003.
[57]
ABADI D J, MARCUS A, MADDEN S R, . SW-Store: a vertically partitioned DBMS for Semantic Web data
management[J]. The VLDB Journal, 2009, 18(2): 385–406.
[58]
全国科学技术名词审定委员会 . 计算机科学技术名词(第三版)[M]. 科学出版社 , 2018.
[59]
HE W, FENG Y, ZHAO D. Improving Knowledge Base Completion by Incorporating Implicit Information[J]. Joint
International Semantic Technology Conference, 2015.
IMIT
白皮书
2021 10 22
医学知识图谱:医学人工智能的基石
39
[60]
JIANG S, _D_ LOW_D_, _D_ DOU. 2012 IEEE 12th International Conference on Data Mining Learning to
Refine an Automatically Extracted Knowledge Base using Markov Logic[J]. 2013.
[61]
NGUYEN D Q, SIRTS K, QU L, . Neighborhood Mixture Model for Knowledge Base Completion[J].
Proceedings of CoNLL 2016, 2016.
[62]
CLARK, HERBERT H. Linguistic processes in deductive reasoning.[J]. Psychological Review, 1969, 76(4):
387–404.
[63]
ARTHUR W B. Inductive Reasoning and Bounded Rationality (The El Farol Problem)[C]//Am Econ Assoc
Papers Proc. 1994.
[64]
众包 - 维基百科,自由的百科全书 [EB/OL]. [2021-11-02]. https://zh.wikipedia.org/
wiki/%E4%BC%97%E5%8C%85.
[65]
语义搜索 _ 百度百科 [EB/OL]. [2021-11-05]. https://baike.baidu.com/item/%E8%AF%AD%E4%B9%89%E6%90
%9C%E7%B4%A2/11001645.
[66]
OpenMD.com Health Search Engine[EB/OL]. OpenMD.com, [2021-11-05]. https://openmd.com.
[67]
WebMD - Better information. Better health.[EB/OL]. [2021-11-05]. https://www.webmd.com/.
[68]
腾讯医典 为大众而生的专业医典 [EB/OL]. [2021-11-05]. https://baike.qq.com/.
[69]
AskBob 医生站 [EB/OL]. [2021-11-05]. https://med-askbob.pingan.com/#/.
[70]
搜狗明医 - 明明白白看医生 [EB/OL]. [2021-11-05]. https://mingyi.sogou.com/.
[71]
医脉通 - 感知世界医学脉搏,助力中国临床决策: 疾病诊疗知识库,医学信息服务,医生在线交流平台 [EB/OL].
[2021-11-05]. https://www.medlive.cn/.
[72]
百科名医网 _ 精准医学科普知识平台 [EB/OL]. [2021-11-05]. https://www-baikemy.xiaohe-jiankang.com/.
[73]
今日主页 [EB/OL]. 必应 , [2021-11-05]. https://www.bing.com/?form=HPFBBK&ssd=20211104_1600&mkt=zh-
CN.
[74]
Magi[EB/OL]. [2021-11-05]. https://magi.com/.
[75]
重磅上线!科大讯飞&学习强国联合推出“讯飞健康”智能导诊平台 _ 腾讯新闻 [EB/OL]. [2021-11-05]. https://
new.qq.com/omn/20210408/20210408A0F90900.html.
[76]
浙江数字医疗卫生技术研究院 . imit 白皮书第 5 临床决策支持(CDS):全景扫描,提升效能 [EB/OL]. . http://
www.imit.org.cn/data/upload/portal/20200811/5f31f696878dd.pdf.
[77]
灵医智惠 [EB/OL]. [2021-11-05]. https://01.baidu.com/.
[78]
北京嘉和美康信息技术有限公司 [EB/OL]. [2021-11-05]. http://www.goodwillcis.com/index.aspx.
[79]
医疗 AI_CDSS_ 临床决策支持系统 _ 人工智能辅助诊疗 | 医学知识库 - 惠每科技 |Dr. Mayson[EB/OL]. [2021-11-05].
https://www.huimei.com/.
[80]
临床决策支持系统 -CDSS_ 东软集团 [EB/OL]. [2021-11-05]. https://www.neusoft.com/cn/products/2322/.
[81]
四川美康医药软件研究开发有限公司 [EB/OL]. [2021-11-05]. http://www.medicom.com.cn/.
[82]
杭州逸曜信息技术有限公司 - 合理用药服务提供商 [EB/OL]. [2021-11-05]. https://www.ipharmacare.net/.
[83]
浙江数字医疗卫生技术研究院 . imit 白皮书第 19 AI 驱动新药研发深度发展 [EB/OL]. . http://www.imit.org.cn/
data/upload/portal/20210127/6010ff7ae7e73.pdf.
[84]
Potential treatment for COVID-19 identified by BenevolentAI enters randomised clinical trial | BenevolentAI[EB/
OL]. [2021-11-05]. https://www.benevolent.com/news/potential-treatment-for-covid-19-identified-by-benevolentai-
using-artificial-intelligence-enters-randomised-clinical-trial.
[85]
刘柳 . 知识图谱的行业应用与未来发展 [J]. 互联网经济 , 2018(4): 6.
[86]
新冠专题 - 开放知识图谱 [EB/OL]. [2021-11-05]. http://openkg.cn/group/coronavirus.