AI技术如何通过医疗记录来进行再就诊率预测

时间：2020-06-04 16:18:01

关键字： AI 电子医疗

手机看文章

扫描二维码
随时随地手机看文章

[导读] 电子健康记录里存储了关于医院患者的有价值信息，但它们通常是分散的、非结构化的，这使得难以使用AI系统来对其进行省时、省力的解析。幸运的是，纽约大学和普林斯顿大学的研究人员开发了一个框架，用于评估

电子健康记录里存储了关于医院患者的有价值信息，但它们通常是分散的、非结构化的，这使得难以使用AI系统来对其进行省时、省力的解析。幸运的是，纽约大学和普林斯顿大学的研究人员开发了一个框架，用于评估临床记录（即症状描述、诊断原因和放射学结果），并自动打一个风险评分，来表明患者是否会在未来30天内再次入院就诊。他们声称，相关的代码和模型参数已经公开在了Github上，其表现已经轻松超过基准线。

“准确预测再入院率具有很重要的临床意义，表现在效率提升和减轻ICU医生负担两个方面，”该论文的作者写道。 “一项估计认为，再次入院造成的经济负担为179亿美元，而其中可避免的入院比例为76％。”

正如研究人员在一篇在Arxiv.org上预发表的论文中所指出的那样（“ClinicalBERT：临床医疗记录建模和再就诊预测”），临床医疗记录通常使用缩写和术语，并且一般很冗长，这对AI系统设计提出了不小的挑战。为了克服它，他们使用了一种自然语言处理方法 - Google的“变换器双向编码器表示”，或简称BERT - 通过结合全局的、长跨度的信息来捕获句子中相距较远单词之间的相互联系。

在预处理步骤中，每条临床记录会被表示成从文本中提取的“子单元”或“子词单元”的集合。从这些单元组成的多个序列中，ClinicalBERT可识别出哪些单元与哪个序列相关联。它还可以从与序列相对应的变量中学习掌握子单元的位置，并在每个序列的前面插入用于分类任务的特殊单元。

为了训练ClinicalBERT，该团队采集了一些临床记录语料库，并隐藏了15％的输入单元，来迫使模型预测隐藏的单元以及任何两个给定的两个句子是否连续。然后，利用了“多重参数的智能监护重症监护（MIMIC-III）”，这是一个电子健康记录数据集，包括了来自38,597名患者58,976次医院就诊的200多万条记录，研究人员使用此数据对该系统进行了微调，以适应临床预测的任务。

作者报告显示，通过由30对医学术语组成的、用于评估医学术语相似性的测试样本进行测试，发现，ClinicalBERT达到了很高的相关性评分，表明它的标记成功捕获了医学概念术语之间的相似性。他们说，与心脏相关的概念，如心肌梗塞、心房颤动和心肌，靠得很近，肾功能衰竭和肾功能衰竭也很接近。

在一项单独的实验中，该团队声称，在MIMIC-III语料中，从涉及34,560名患者的、且有连续48或72小时的医疗记录的数据来看，与仅关注出院数据摘要的模型相比，ClinicalBERT显示在未来30天再入院预测上效果有提升，相对增加了15％的召回。此外，他们表示，随着入院时间的延长和临床笔记数量的增加，系统开始在语言建模任务中的表现开始优于原始BERT模型。

“ClinicalBERT可以帮助提供护理的人员做出明智的决定，并在必要时提前进行干预，”研究人员写道。 “它的输出结果…是可以追溯的，可以理解哪些临床记录中的信息与当前预测结果相关，（并且它）也很容易推广到其他任务，如诊断预测、死亡风险评估或住院时间评估等。”