机器学习能诊断病情，还能预测患者出院后的情况？

MasterCui

2018-05-07

摘要： 机器学习正逐渐改变着各行各业，医疗行业也处于变革之中。想不到机器学习不光能诊断患者病情，还能预测患者出院后的情况呢，这个研究方向有点意思，感兴趣的读者快来瞅瞅吧！

       随着数据量以及计算机性能的不断提升，机器学习技术正逐渐渗透于各行各业中。计算机视觉、自然语言处理、机器人等领域基本上已经被机器学习算法垄断，正逐步向教育、银行、医疗等传统行业扩张。关于机器学习如何改变传统教育模式，可以参见博主的这篇文章《使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私人定制学习路线》。银行业目前对人工智能炒作成分居多，大多数银行持观望态度，短时间不会利用人工智能取代大部分银行职员工作。医疗行业应用AI也比较火热，比如利用AI检测癌症、驱动新药发现引擎、基因检测等。而脓毒症（Sepsis）是一种医疗行业常见的并发症，本文将使用机器学习预测脓毒症患者的出院后情况。

       脓毒症是指因感染因素引起的全身炎症反应综合征，严重时可导致器官功能障碍或循环障碍，是严重创伤、烧伤、休克、感染和外科大手术等常见的并发症，因为其症状和发烧、低血压等其它常见疾病非常相像，很难被早期发现，如果不及时治疗，可进一步发展为感染性休克，其住院死亡率超过40%，相当危险。

       了解脓毒症患者的最高死亡风险对临床医生的优先护理是有帮助的。团队与Geisinger健康护理系统的研究人员合作，使用历史电子健康记录数据（EHR）建立模型来预测脓毒症住院患者在住院期间或出院后90天的全因死亡率（all-cause mortality）。该模型可以指导医疗团队为那些预测为高概率死亡的患者进行仔细监测，并采取有效预防措施。

数据科学环境

       使用IBM数据科学经验为数据科学家提供编程环境（三种流行编程语言：Python、Scala和R，两种编程分析工具：Jupyter和Zeppelin），此外，IBM数据科学经验通过业务应用程序实时或批量计分来操作模型，为连续模型检测和再训练集成反馈回路。

收集和预处理数据

       Geisinger在2006年~2016年获得了超过10000名确诊为败血症的患者数据，这些数据包含人口统计学、住院和门诊、外科手术、医疗史、药物、医院单位之间转移以及实验室结果等记录。

       对于每名患者，选择最近的医院和最相关的住院数据，包括住院期间具体的信息，比如手术类型、培养位置（细菌）等。此外，还导出了入院前的总结信息，比如住院前30天的外科手术次数等，没有使用出院后的数据。图1给出了这些基于时间数据的决策：

图1 基于时间序列数据做预测

       合并所提供的数据集后，得到的数据集包括10599行，其中每名患者有199个属性（特征）。

预测模型

       在数据清洗和特征选择完成后，将任务目标定义为二分类问题：预测脓毒症患者出院后90天内是否死亡。

       选择的算法为梯度提升树（Gradient boosted trees， GBT），并通过XGBoost数据包实现。由于爱算法的良好的执行速度和鲁棒性，一直是机器学习竞赛中流行使用的算法。使用XGBoots另一个动机是微调超参数以提升模型性能的能力。在训练数据中，使用十折交叉验证（ten-fold cross-validation）和网格搜索（GridSearchCV）以迭代的方式选择参数，以最大化ROC曲线下的面积（AUC）。IBM数据科学经验中的一个实例在此可见。

       将数据集分为训练集和测试集，其中训练集占60%，测试集占40%。使用训练集训练模型，将训练好的模型参数应用于测试集上，模型性能如图2所示：

图2 XGBoost模型的性能

       图2中的一些数据是性能评价指标，比如AUC得分，这个数字越接近于1，则表示模型的能力越能正确的分类正预测（TP），从而减少假阳性。测试结果AUC数据为0.8561，表明模型能够识别出绝大多数脓毒症患者90天内是否死亡，如果预测为死亡，则这些患者可以进行适当的靶向治疗。

       对于精确率（precision）和召回率（recall），数字越接近于1，表明模型越精确。图2中显示的数据为接近于0.80，即赞成高召回率——目的是尽量减少该模型遗漏最终可能因脓毒症死亡的患者数量。

       对于另外的一个评价指标准确度（Accuracy），使用bootstrap对训练和测试数据生成1000个变体，然后在这些数据上运行XGBoost模型，并获得每次运行的模型准确率，1000次运行结果的准确度分布为0.77~0.79之间的概率为95%，这意味着建立的模型能够识别出超过四分之三的真实结果。

       除了以上评价指标外，模型的混淆矩阵（confusion matrix）如图3所示。从图中可以看到，对于测试数据，模型确定了1190例患者为真阳性（预测为死亡的脓毒症患者死亡）和2087例患者为真阴性（预测为生存的脓毒症患者存活）。

图3 阴阳性预测

       XGBoost还具有确定特征的能力，这种能力并不告知选择的特征是否为死亡或生存的预测因子，但XGBoost生成的信息仍然非常有用，因为可以了解到哪些特征是用于预测死亡的。如图4所示，29.5%的患者都使用“入院年龄”特征来预测死亡。

图4 模型最重要的20个特征

       对特征进一步的探索分析，以测试特征如何与死亡结果相对应。虽然上图有助于可视化特征与结果的关系，更重要的是要了解XGBoost训练多个决策树的机制。因此，在探索过程中，XGBoost模型中的重要特征可能与这些结果变量没有明显关系。

       如图5所示，诸如“入院年龄”的特征可能表明老年患者相较于年轻患者而言具有更高的死亡比例，另一个例子“血管升压药使用时间”特征可能表明服用升压药的患者死亡率较高，但这些死亡也可能是由于其不好的健康状况导致。

图5 与患者死亡有关的一些重要特征

       XGBoost输出的决策树规则可以帮助医生进一步了解如何针对患者制定治疗方案。比如，由于老年患者较高的死亡风险，医疗团队可以特别关注老年患者，检测所服用的血管升压药的持续时间、尽量减少患者在各科室之间转移的次数以减少对易感染患者的影响等。

结论

       预测脓毒症患者的全因死亡可指导健康提供者主动监测并采取预防措施以提升患者的存活率。在本文模型中，选择了那些被认为与脓毒症患者死亡有关的重要特征，即机器学习模型可以帮助识别与脓毒症死亡相关联的变量。后续随着数据量的增加，将添加一些更关键特征来改进模型，也可以将该方法应用于其它病症的预测之中，希望产生一个更具可操作的模型，以改善医疗水平。

原文链接

阅读更多干货好文，请关注扫描以下二维码：

本文为云栖社区原创内容，未经允许不得转载。

机器学习

MasterCui

0 关注 0 粉丝 0 动态

关注关注

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 12评论 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 8评论 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 12评论 2020-11-10

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 15评论 2020-11-09

安科网

机器学习能诊断病情，还能预测患者出院后的情况？

MasterCui

MasterCui

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

MasterCui