2. 国家老年疾病临床医学研究中心湘雅医院, 湖南 长沙 410008
2. National Clinical Research Center for Geria-tric Disorders[Xiangya Hospital], Changsha 410008, China
我国于2003年和2008年先后建立了中国传染病疫情和突发公共卫生事件网络直报系统[1]和传染病自动预警系统[2],其核心都是围绕已知传染病的上报和监测,采用分级上报和基于规则模型事后集中监测的机制[3],而医疗机构作为传染病监测哨点机构很难对新发可疑传染病的发生情况和时空聚集性特点进行合理判断与预警[4]。主要表现在以下几个方面:(1)对于新发可疑传染病提前干预能力不足。目前医院传染病都是通过医生报卡后才知道发生了传染病,而且不知道传染病发生的区域及时间相关特性[5],无法针对性地进行相应的干预。(2)医院缺少相应的手段对传染病进行监测和预警。医院虽然为非传染病专科医院,但日常诊疗过程中也会收治大量的传染病患者,这些患者会严重地影响到其他患者及医务人员的安全,需要建立起相应的传染病监测与预警机制,减少传染病对日常诊疗工作的影响。(3)无法整合大量临床数据。医院发热门诊、感染病科、放射科、检验科等科室在日常诊疗工作过程中产生了大量的传染病患者全过程临床数据,由于缺少数据的整合基本上都处于无法利用的状态。(4)传染病报告人为影响过大。传染病报告卡以前都是由医生主观决定是否上报,也有可能由于工作较忙而忘记上报,导致传染病患者漏报,调查研究[6-7]结果显示,河南省综合医院传染病漏报率为11.43%,四川省法定报告传染病漏报率为7.69%,需针对这种情况建立监督机制减少漏报。目前,国内外已经开展了相关研究,例如抓取医院信息系统内与传染病相关的诊断名称、关键词[8],通过对实验室报告数据进行分析处理实现对需要上报传染病病例的识别[9]。本研究在上述工作的基础上,通过已整合患者全病程数据的临床数据中心,研究建立可疑呼吸道传染病发现与预测的方法和机制。
1 对象与方法 1.1 研究对象某三级甲等医院在10余年近800万患者的临床诊疗数据基础上构建了医院临床大数据中心[10],数据的来源为医院内临床业务数据、区域及联盟机构数据、设备数据。传染病数据库以传染病的数据模型为核心,从临床数据中心采集5年内12种呼吸道传染病的门诊和住院医疗数据,对传染病所涉及的变量进行全面梳理,形成传染病专病数据库,并建立数据自动增量更新的机制,保证传染病数据库数据的及时、准确和完整。
1.2 研究方法结合医院历史传染病数据,组织感染科医生、医学信息学专家、技术公司共同对近千份传染病住院病历进行集中多轮标注及审核,构建半监督的机器学习模型,自动学习病历数据,形成电子病历结构化模型。以权威机构出版或发布的传染病医学教材及中英文文献为基础,结合传染病专病临床数据,采用三元组描述医学本体,并采用半自动化的方式抽取医学知识且对知识进行融合,形成以标准化术语为基础的传染病知识图谱。选取典型传染病的全量数据,先进行数据标化、清洗等预处理,采用特征分类和机器学习的方式进行模型训练,同时融合基于医学知识图谱的推理模型,并经过交叉验证后形成可用的传染病预测模型,最终与医院业务系统集成,以工具化形式与业务系统形成一个整体。
1.2.1 病历结构化建模病历的特征提取采用半监督学习的方式将特征值降维到一个足够建模的小数据集[11],半监督学习模型首先需要学习数据的内在结构以便合理的组织数据来进行预测,在此学习方式下,输入数据分为两部分,一部分是已经被标注的病历文书,另一部分则是未被标注的病历文书。对已标注的病历文书采用监督学习模型训练数据集,然后对未标记的数据集进行预测,将预测结果与训练数据的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。对未标注的病历文书采用非监督学习,从无训练的原始数据中找到隐藏的模式或者关系。最后综合两部分得到结构化的病历特征。从病历文书中识别的特征实体类型包括疾病、症状、体征、检验结果、检查结果、体质、生活习惯等。见图 1。
![]() |
图 1 病历半监督学习模式 Figure 1 Semi-supervised learning mode of medical records |
本文选取流行性感冒、人感染高致病性禽流感、肺结核、百日咳、白喉等通过呼吸道传染疾病的全量数据。在临床医生及专家的指导下,应用本体技术构建标准的以疾病概念为核心的医学知识图谱模型,并采用人工与机器自动化结合的方式抽取传染疾病医学知识,以三元组描述形式作为基础知识单元。通过人工的方式从诊疗指南、教材、文献等资料中抽取出相应的由标准术语描述的医学实体,并基于知识图谱模型构建各类实体之间的语义关系[12],保障与知识来源中的语义一致性。同时,基于已构建的病历结构化模型、专病库数据模型,分别从传染病专病库中非结构化的电子病历文书及结构化的诊疗过程数据中抽取出相应的医学实体及其对应的诊断结果实体,再结合统计分析方法及关联分析方法从中挖掘出各传染病实体的医学知识。最后,将前两步构建的知识图谱进行相互校验、相互融合,最终形成符合理论和实践经验的传染病知识图谱。
1.2.3 发现与预测模型基于传染病专病库、电子病历结构化模型以及传染病知识图谱的构建,本文提出了一种可疑传染病发现与预测模型。模型的整体执行流程如图 2所示。
![]() |
图 2 可疑传染病发现与预测模型整体流程 Figure 2 Overall process of the detection and prediction model for suspected infectious diseases |
模型的输入为患者临床病例数据信息,该信息包括患者的基本信息以及患者临床诊疗过程数据。可疑传染病发现与预测模型是由多个子模型构建而形成的流程化发现与预测模型,其中包括:(1)病例画像特征构建模型。结合患者临床病例数据,提取患者基本信息,包括年龄、性别、体质等特征,同时利用病历结构化模型从病历文书中提取患者病例特征信息包括症状、体征、检验结果、检查结果、体质、生活习惯等实体,构建病例特征画像。(2)基于XGBoost的传染病预测模型。基于病例画像特征的构建,利用传染病专病库历史病例数据信息,构建分析样本,其中因变量为病例画像特征信息,自变量为是否传染病的标签,属于二分类的建模研究。本文采用XGboost算法[13]对构建的病例画像特征及标签样本进行学习建模,目标函数采用binary: logistic构建二分类模型。基于该模型可以对病例画像特征进行预测,预测结果为“是”(表示该病例疑似为传染病)或“否”(表示该病例不是传染病)。在此分类模型中,还可以得出各特征的重要性分析,特征重要性是通过对数据集中的每个特征进行计算,并进行排序得到,特征重要性越高,其对结果的影响越大。(3)基于知识图谱的传染病诊断模型。同样基于构建的病例画像特征,结合传染病知识图谱,利用知识图谱推理技术,来分析当前病例特征可诊断的传染疾病。基于临床诊断思维,分别从疾病的可解释性以及可诊断性两方面进行分析,采用综合评分方法来为候选疾病d进行得分计算,其中可解释性explanatory计算如下:
$ \mathit{explanator}{\mathit{y}_{s, d}} = \frac{{\left| {S \cap {G_d}} \right|}}{{\left| {{G_d}} \right|}} $ |
其中S表示当前病例中的特征集合,Gd表示知识图谱G中疾病实体d关联的实体特征集合。若病例特征集合包含了疾病d在知识图谱中关联的实体特征集合,那么可解释性(explanatory)为1,即表示当前病例特征可以完全解释当前疾病d。同时,疾病的可诊断性(diagnostic)计算如下:
$ \mathit{diagnosti}{\mathit{c}_{s, d}} = \frac{{\sum _x^s {\left| {{G_x} \to d} \right|} }}{{\sum _x^s {\left| {{G_x} \to ?} \right|} }} $ |
其中x∈S,Gx→?表示特征实体x与其他任意疾病存在诊断关系的知识集合,Gx→d表示特征实体x与疾病d存在诊断关系的知识集合。可诊断性越高,表示当前特征集合S指向疾病d的特异性越强。
基于病例画像特征集合S与疾病d的可解释性与可诊断性的计算,进一步提出疾病诊断推荐综合评分计算方法如下:
$ \mathit{scor}{\mathit{e}_{s, d}} = \frac{{2 \times \mathit{explanato}{\mathit{r}_{s, d}} \times {\rm{ }}\mathit{diagnosti}{\mathit{c}_{s, d}}}}{{{\rm{ }}\mathit{explanator}{y_{s, d}} + {\rm{ }}\mathit{diagnosti}{\mathit{c}_{s, d}}}} $ |
即给定病例画像特征集合S,针对候选疾病d可计算出其诊断推荐评分scores, d。综合评分score的取值范围为0~1,值越大即表示该病的诊断可靠性越高,基于该评分可实现对疑似传染病诊断结果进行排序。(4)合并分析与决策。综合传染病预测模型以及传染病诊断模型的分析结果,若传染病预测模型预测当前病例为“是”,即该病例为疑似传染病,同时传染病诊断模型未诊断出结果,即传染病诊断模型中最高得分的诊断结果低于一个给定的阈值α(默认为0.5),那么此时,即认为当前病例为新发现的可疑传染病并输出,否则认为未发现新的可疑传染病。
1.3 评估指标在本文中,将采用查准率(precision)、查全率(recall)以及F1值(fscore)来进行评估,评估值是通过预测结果计算得出的,true与false代表着样本是否预测正确,positive和negative表示为样本的预测结果——被预测为正样本或者负样本。根据两两搭配的四种组合方式,分别为:真正(true positive, TP)、假正(false positive, FP)、真负(true negative, TN)和假负(false negative, FN)。
查准率是指预测的正样本被预测正确多少。
$ \mathit{precision} = \frac{{TP}}{{TP + FP}} $ |
查全率是指实际的正样本被预测正确多少。
$ \mathit{Recall} = \frac{{TP}}{{TP + FN}} $ |
综合查准率与查全率,采用指标F1值进行评估。
$ F1 = \frac{{2 \times \mathit{Precision}{\rm{ }} \times {\rm{ }}\mathit{Recall}{\rm{ }}}}{{{\rm{ }}\mathit{Precision}{\rm{ }} + {\rm{ }}\mathit{Recall}{\rm{ }}}} $ |
应用SPSS软件(版本22.0)对电子病历的特征进行统计分析,采用卡方检验对不同症状、不同部位、不同检查结果和不同疾病的主体进行比较评价。
2 结果 2.1 基本数据本文数据来自真实医疗机构电子病历中产生的诊疗数据,纳入2016—2021年的流行性感冒、人感染高致病性禽流感、肺结核、百日咳、白喉等12个病种共计2 035例病例,同时获取2 300份非传染病病例,共计4 335份病例数据。为了验证模型的有效性,基于交叉验证方法构建了10套数据集,每套数据集中对所有病例数据按照7 ∶3进行随机拆分[14],分别用于模型训练和测试。
2.2 基于XGboost模型的预测结果本试验采用python语言开发XGboost模型,并针对10个数据集中的训练集和测试集分别进行训练和验证,试验预测结果如表 1所示。采用XGboost模型对数据集进行十次交叉验证,模型平均查准率为91.88%,查全率为88.06%,综合F1值达到0.899 1,模型整体表现效果良好。此外进一步基于XGboost模型还可以实现特征的重要性分析,如图 3所示,其中TOP10重要特征分别为发热、咽痛、流涕/鼻塞、头痛、腹泻/呕吐、呼吸困难、抽搐/痉挛/瘫痪、持续高热>3 d、脏器功能不全、白细胞异常。
表 1 基于XGboost的模型预测结果 Table 1 Model prediction results based on XGboost |
![]() |
![]() |
注:ALT为丙氨酸转氨酶;AST为天冬氨酸转氨酶。 图 3 特征重要性分析 Figure 3 Analysis on characteristic importance |
采用python语言实现基于知识图谱的诊断模型,对10次随机数据集中的测试集进行验证,其试验结果详情如表 2所示。采用基于医学知识图谱的诊断推理模型对测试集进行验证,模型平均查准率为90.9%,查全率为86.74%,综合F1值为0.887 6。模型整体识别效果良好,但是略低于XGboost模型。
表 2 基于知识图谱的诊断推理结果 Table 2 Diagnostic reasoning results based on knowledge mapping |
![]() |
综合机器学习及知识图谱技术,将XGboost预测模型及知识图谱诊断模型进行融合形成合并分析决策模型,结果如表 3所示。在融合了基于XGboost的预测模型及基于知识图谱的推理模型后,模型的平均查准率为92.55%,查全率为91.49%,综合F1值为0.920 1。融合后的模型预测效果均优于前两者。同时,通过比较XGboost模型、知识图谱诊断模型、合并分析决策模型的受试者工作特征曲线(ROC曲线)可知,合并分析决策模型的性能也优于其他两种模型,见图 4。
表 3 合并分析决策模型预测结果 Table 3 Prediction results of combined analysis decision model |
![]() |
![]() |
图 4 三类模型的ROC曲线对比 Figure 4 Comparison of the ROC curves of three types of models |
将训练好的模型与医院的电子病历系统和临床辅助决策系统进行集成,合理设置触发节点,当患者关键信息形成后,电子病历系统将患者基本信息传递给临床辅助决策系统,系统从数据汇聚库和临床数据中心自动抽取检验、检查等相关指标并输入发现与预测模型,如果模型计算结果符合设定的阈值,则弹出提示警告,并引导相关管理部门进行上报,见图 5。
![]() |
图 5 与医疗信息系统集成 Figure 5 Integration with medical information system |
本文的创新性表现在将可疑呼吸道传染病的发现通过信息化手段前移至临床一线,克服了既往模式下基于国家或地区传染病预警系统内置规则判断是否传染病的时限性和准确性问题,有利于医院快速启动医院感染防控应急预案,提前筹备防控物资;其先进性在于利用医院临床数据中心的基础数据支撑和计算能力支撑,不依赖特定诊断,而是通过分析多维度的临床特征数据,构建了符合呼吸道传染病特点的发现预警模型,并提出合并传染病预测模型和传染病诊断模型的分析与决策模型,可以通过调节阈值形成符合数据规律的最佳决策方案。目前基于多种呼吸道传染病症状、体征、临床特征建立的呼吸道可疑传染病发现与预测模型,以医院历史的发热门诊患者最终确诊为传染病的患者进行模型验证,通过对可疑传染病的预测,辅助医院管理者及时启动传染病应急预案,很大程度上减少在传染病发生早期医务人员的感染概率。然而,本模型也存在一定的局限性,其平均查准率、查全率均超过90%,综合F1值超过0.92,这得益于模型中的临床数据均来自同一所医院,并且经过了严格的数据标准化和结构化,病历的书写习惯和名词做了有针对性的预训练,使得模型的预测效果较好。如果推广至其他医疗机构,需要利用其既往的临床数据再次进行多轮模型训练,并调整分析与决策模型的阈值,同时,还要与电子病历等临床应用系统对接,才能发挥模型的发现与预测作用。
本研究进一步计划首先将知识图谱扩充至20种传染病,并分为呼吸道传染病、消化道传染病、血液传染病和体表传染病四大类分别构建模型[15],不断扩展可疑传染病预测的知识图谱知识,将检查、检验等知识融合,从疾病预防控制中心、区域人口健康信息平台等渠道获取更多的数据,将更多传染病预测模型进行融合后应用到临床及管理决策部门。其次,与地理信息系统相结合进行可疑传染病时空预警模型算法研究[16-17],提供传染病时空聚集性的智能分析,探索多模型的综合预警,通过模拟手段评估医院通行限制、病区防控和医疗资源调配等措施的效果。此外,还可以与医院互联网平台结合,开设传染病信息快讯类模块,提升公众主动查询传染病预警信息的便捷性[18],同时也作为收集社会信息的渠道,丰富模型数据维度,提升模型的发现和预警效率。
利益冲突:所有作者均声明不存在利益冲突。
[1] |
任南, 文细毛, 吴安华. 全国医院感染监测与数据直报系统的研制及使用[J]. 中国感染控制杂志, 2008, 7(3): 170-172. Ren N, Wen XM, Wu AH. Development and application of national nosocomial infection surveillance and data reporting system[J]. Chinese Journal of Infection Control, 2008, 7(3): 170-172. DOI:10.3969/j.issn.1671-9638.2008.03.006 |
[2] |
杨维中, 兰亚佳, 李中杰, 等. 国家传染病自动预警系统的设计与应用[J]. 中华流行病学杂志, 2010, 31(11): 1240-1244. Yang WZ, Lan YJ, Li ZJ, et al. The application of national outbreak automatic detection and response system, China[J]. Chinese Journal of Epidemiology, 2010, 31(11): 1240-1244. DOI:10.3760/cma.j.issn.0254-6450.2010.11.009 |
[3] |
余斐, 张洪龙, 赖圣杰, 等. 国家传染病自动预警系统在基层应用效果初步分析[J]. 中华流行病学杂志, 2011, 32(5): 446-449. Yu F, Zhang HL, Lai SJ, et al. The effectiveness of China infectious disease automated-alert and response system(CIDARS)in the local regions[J]. Chinese Journal of Epidemiology, 2011, 32(5): 446-449. DOI:10.3760/cma.j.issn.0254-6450.2011.05.005 |
[4] |
张洪龙, 曾令佳, 赖圣杰, 等. 2016年国家传染病自动预警信息系统运行情况分析[J]. 疾病监测, 2018, 33(2): 159-167. Zhang HL, Zeng LJ, Lai SJ, et al. Performance of China infectious disease automated-alert and response system in 2016[J]. Disease Surveillance, 2018, 33(2): 159-167. |
[5] |
夏祎祺, 陈非非, 马露, 等. 我国公立综合医院传染病预警系统建设现状与发展建议[J]. 中华医院管理杂志, 2022, 38(7): 544-547. Xia YQ, Chen FF, Ma L, et al. Status quo and development recommendations for infectious disease early warning system in public general hospitals in China[J]. Chinese Journal of Hospital Administration, 2022, 38(7): 544-547. DOI:10.3760/cma.j.cn111325-20220118-00045 |
[6] |
马莉珍, 罗湘蜀, 杨长虹, 等. 2015年四川省医疗机构传染病漏报情况调查[J]. 预防医学情报杂志, 2017, 33(3): 247-251. Ma LZ, Luo XS, Yang CH, et al. Assessment on reporting rates of notifiable infections disease in medical institutions in Sichuan province in 2015[J]. Journal of Preventive Medicine Information, 2017, 33(3): 247-251. |
[7] |
李桂芹. 医院传染病报告的质量管理[J]. 中国病案, 2014, 15(12): 57-58, 68. Li GQ. Quality management of hospital infectious disease report[J]. Chinese Medical Record, 2014, 15(12): 57-58, 68. DOI:10.3969/j.issn.1672-2566.2014.12.027 |
[8] |
张丽, 韩月红. 北京安贞医院传染病网络实时监测效果评价[J]. 传染病信息, 2018, 31(5): 463-465. Zhang L, Han YH. Effect evaluation of real-time surveillance network for infectious diseases in Beijing Anzhen Hospital[J]. Infectious Disease Information, 2018, 31(5): 463-465. DOI:10.3969/j.issn.1007-8134.2018.05.014 |
[9] |
冷姝芳, 王键, 杨晓青, 等. 基于医院信息系统的传染病监测报告系统的应用效果评价[J]. 上海交通大学学报(医学版), 2015, 35(12): 1888-1891. Leng SF, Wang J, Yang XQ, et al. Evaluation of application effect of infectious disease reporting system based on hospital information system[J]. Journal of Shanghai Jiaotong University (Medical Science), 2015, 35(12): 1888-1891. |
[10] |
段鹣李, 陈廷寅. 基于信息技术的临床科研数据平台建设[J]. 中国现代医学杂志, 2020, 30(9): 124-128. Duan JL, Chen TY. Construction of clinical scientific research data platform based on information technology[J]. China Journal of Modern Medicine, 2020, 30(9): 124-128. |
[11] |
李村合, 张振凯, 朱洪波. 基于半监督学习的多示例多标签改进算法[J]. 电子技术应用, 2019, 45(7): 32-35, 39. Li CH, Zhang ZK, Zhu HB. A multi-instance multi-label improved algorithm based on semi-supervised learning[J]. Application of Electronic Technique, 2019, 45(7): 32-35, 39. |
[12] |
Chen TY, Hu YM. Entity relation extraction from electronic medical records based on improved annotation rules and BiLSTM-CRF[J]. Ann Transl Med, 2021, 9(18): 1415. DOI:10.21037/atm-21-3828 |
[13] |
周彤彤, 俞凯, 袁贞明, 等. 基于LSTM与XGBOOST混合模型的孕妇产后出血预测[J]. 计算机系统应用, 2020, 29(3): 148-154. Zhou TT, Yu K, Yuan ZM, et al. Predictive analysis of postpartum hemorrhage based on LSTM and XGBoost hybrid model[J]. Computer Systems & Applications, 2020, 29(3): 148-154. |
[14] |
艾正琳, 洪珊, 胡居龙, 等. 食管胃静脉曲张治疗后再出血预测模型的建立与评价[J]. 临床肝胆病杂志, 2019, 35(9): 1954-1957. Ai ZL, Hong S, Hu JL, et al. Establishment and evaluation of a predictive model for rebleeding after endoscopic treatment of esophageal and gastric varices[J]. Journal of Clinical Hepatology, 2019, 35(9): 1954-1957. |
[15] |
Burkom H, Loschen W, Wojcik R, et al. Electronic surveillance system for the early notification of community-based epidemics (ESSENCE): overview, components, and public health applications[J]. JMIR Public Health Surveill, 2021, 7(6): e26303. |
[16] |
裴韬, 王席, 宋辞, 等. COVID -19疫情时空分析与建模研究进展[J]. 地球信息科学学报, 2021, 23(2): 188-210. Pei T, Wang X, Song C, et al. Review on spatiotemporal analysis and modeling of COVID -19 pandemic[J]. Journal of Geo-information Science, 2021, 23(2): 188-210. |
[17] |
劳晓洁, 徐贤丽, 林琨, 等. 基于地理信息系统的一起腺病毒感染暴发疫情的调查处置[J]. 中国感染控制杂志, 2020, 19(10): 894-899. Lao XJ, Xu XL, Lin K, et al. Investigation and disposal of an outbreak of adenovirus infection based on geographic information system[J]. Chinese Journal of Infection Control, 2020, 19(10): 894-899. |
[18] |
Sharma D, Panigrahi A. Health alert network[J]. Arch Community Med Public Health, 2020, 6(1): 26-27. |