现在的位置:主页 > 期刊导读 >

基于糖尿病防治的医学知识图谱构建的研究

来源:糖尿病天地(临床) 【在线投稿】 栏目:期刊导读 时间:2021-02-02

【作者】:网站采编
【关键词】:
【摘要】:知识图谱(knowledge graph)是若干实体相互连接而成的语义网络,是由Google 在2012 年正式提出的,目前比较流行的大规模知识库有DBpedia、Freebase、Wikidata 等。随着医疗大数据时代的到来,

知识图谱(knowledge graph)是若干实体相互连接而成的语义网络,是由Google 在2012 年正式提出的,目前比较流行的大规模知识库有DBpedia、Freebase、Wikidata 等。随着医疗大数据时代的到来,基于本体的知识表示模型成为知识表示的主流方法,本体可定义为概念模型的明确的规范说明[1],它强调概念间的逻辑推理关系,基于语义网的本体描述语言成为研究和应用的热点,包括资源描述框架(Resource Description Framework,RDF)。RDF 定义了资源、属性、值三种基本实体,作为一种基于资源标识符的三元组来描述语义实体间关系的知识组织的概念模型和逻辑模型,能够表达医学知识实体间的复杂关系。国内的知识谱图研究起步相对较晚,主要集中于几个大型的互联网公司,如搜狗、百度等。知识图谱在医疗行业的研究目前也在积极地探索中,北京大学,计算语言教育部重点实验室,利用自然语言处理技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG1.0,为医学知识图谱的构建提供了很有意义的参考[2]。为了解决医学知识图谱中知识重复、知识质量和知识融合的问题,提出了在大数据驱动下的医学知识图谱构建方法[3]。针对医学数据专业性强、结构复杂等特点,结合当前我国医学知识图谱构建在数据和技术层面临的问题和挑战,提出了相应的对策和建议[4]。本研究以《中国2 型糖尿病防治指南(2017 年版)》内容为核心,结合医学词典、电子病历、各种医学指南、专家共识等基础数据,使用自然语言处理的相关技术,从糖尿病的教育与管理的角度出发,建立一套完整的糖尿病知识图谱的构建方法,目标是提供一个深入了解糖尿病的全新视角,帮助患者不断掌握疾病管理所需的知识和技能,最终实现糖尿病的被动救治向主动防治的转变,降低人群中糖尿病发病风险,维护和促进全民健康。

1 糖尿病知识图谱构建

糖尿病知识图谱的构建步骤见图1,分为医学知识表示、医学知识抽取、医学知识融合和知识图谱存储四个部分。

图1 糖尿病知识图谱构建步骤

1.1 医学知识表示 医疗大数据的来源非常繁杂,各个医学实体之间的关系也比较复杂,为了把相关信息表示成可理解的方式,需要相应的知识表示模型。①医学术语规范化唯一概念标识:为了解决医学术语在不同词汇表中的差异,参照统一医学语言系统(UMLS)、国际疾病分类(ICD-10)等,使用唯一概念标识对来自不同词汇表源但相同的词汇的概念进行编码。如:参照ICD-10,疾病“2 型糖尿病”对应的标准编码是“E11.901”、疾病“糖尿病性下肢溃疡”对应的标准编码是“E14.6913”。有了唯一概念标识就可以把不同数据来源但具有相同概念的词汇进行统一的编码管理,使得医学知识表示具有规范的数据表达方式。②基于语义的本体描述:RDF 三元组RDF因其结构简单、表述清晰,且具有于语义与关联表达的灵活性优势,可用于构建知识图谱。RDF 可表达实体以及实体之间的关系,具体形式为<实体,关系,实体>或者<实体,属性,属性值>,如<糖尿病,分型,2 型糖尿病>,其中“糖尿病”和“2 型糖尿病”是实体,“分型”是这两个实体之间的关系。此外,RDF也可以用节点和关系组成的图模型来表示,其中节点表示实体和属性值,连线表示节点之间的关系。

图2 糖尿病诊断标准的半结构化文本

1.2 医学知识抽取 医学数据的知识信息抽取包括实体抽取、关系抽取和属性抽取三个步骤。在糖尿病指南中,主要分为半结构和非结构化文本两种类型。半结构化文本即文本中存在部分结构化的数据,兼顾了格式性和自由性,在抽取信息时,相对非结构化文本更为方便,见图2。非结构化文本也被称为自由化文本,一般没有固定格式,经常是连续的字符串来描述相关内容,需要经过如分词、实体识别等步骤才能获取相关信息,如一段有关糖尿病诊断与分型的介绍,见图3。

图3 糖尿病诊断与分型的自由文本

1.2.1 医学实体抽取[5]采用基于Lattice LSTM 模型抽取实体[6],该模型对输入字符序列和所有匹配词典的潜在词汇进行编码,抽取如医学文本中的药物名称、症状名、疾病名等。

1.2.2 医学实体关系抽取 为实现推理,还需要抽取医学实体之间的关系[7],以形成知识图谱。近年来,利用深度学习的方法抽取医学实体语义的关系取得了长足发展,如模型中引入位置特征、依赖关系、先验知识和注意力机制等附加特征,进一步提高了模型性能,见图4。基于大规模的人工标注语料可进一步提高模型的性能。此外,将各模型混合在一起用于医学语义关系抽取,可很好地利用各模型的优势,提高医学语义关系抽取的性能,如将基于深度学习和基于规则匹配的方法结合在一起,利用句法卷积神经网络模型抽取存在某种关系的蛋白质实体对,最后基于句法模板和词典匹配的方法抽取当前两个蛋白质实体间的关系[8]。在实体关系抽取中,最重要的是关系指示词的确认,有些是显性的指示词,如“症状是”“表现为”“可分为”等;有些是隐性的指示词,如“对于儿童和青少年的糖尿病高危人群,宜从10 岁开始,但青春期提前的个体则推荐从青春期开始”,此句中暗藏了关系指示词“年龄”,即儿童糖尿病高危人群,年龄,10 岁/青春期起。我们使用{B,I,O,E,S}三类标签标注候选关系指示词,B 代表这个词语是关系指示词序列的开始,I代表这个词语在关系指示词的中间位置,O 代表这个词语不是关系指示词的一部分,E 代表这个词语是关系指示词的结束,S 代表这个词语是一个完整的关系指示词。图5 是一个标注样例,是基于LSTM的双向LSTM 医学实体关系抽取模型,表明高尿酸血症与糖尿病之间具有[疾病症状]的关系,此种关系属于隐含的关系,只有通过人工标注的方式才能完成。

文章来源:《糖尿病天地(临床)》 网址: http://www.tnbtd.cn/qikandaodu/2021/0202/581.html

上一篇:抗性淀粉生理功能及作用机制的研究进展
下一篇:葛根素治疗糖尿病的应用研究进展

糖尿病天地(临床)投稿 | 糖尿病天地(临床)编辑部| 糖尿病天地(临床)版面费 | 糖尿病天地(临床)论文发表 | 糖尿病天地(临床)最新目录
Copyright © 2018 《糖尿病天地(临床)》杂志社 版权所有
投稿电话: 投稿邮箱: