项目展示

  • 首页 i(name 在 AWS 上使用 IBM Cloud Pak for Data 构建医疗保健数据管道 架构博客

在 AWS 上使用 IBM Cloud Pak for Data 构建医疗保健数据管道 架构博客

2026-01-27 13:33:32

在 AWS 上利用 IBM Cloud Pak for Data 建立医疗数据管道

作者 Eduardo Monich Fronza Rishit G Barochia 和 Sunil Gajula 于2022年12月14日发表

主要重点

医疗数据随著连接医疗设备和临床系统的普及而急剧增加。本文介绍如何将来自不同来源的数据如 Snowflake 和连接健康设备汇集到 AWS 上形成医疗数据湖。结合 IBM Watson 使用这些数据建立、训练和部署机器学习ML模型,帮助改善医疗结果。

随著连接医疗设备和临床系统的普及,医疗数据生成的速度持续上升。这些数据的例子包括时间敏感的病人信息,如实验室检测结果、病理报告、X 光、数字成像,以及用以监测病人生命体征如血压、心率和体温的医疗设备。

飞机加速安卓下载

虽然这些不同类型的数据在处理上可能存在挑战,但结合起来可以用于构建数据管道和机器学习ML模型,以解决医疗行业各种挑战,如预测病人的结果、重返住院率或疾病进展。

在本篇文章中,我们将展示如何将来自不同来源的数据如 Snowflake 和连接健康设备带入 AWS,以形成一个医疗数据湖。我们还将探讨如何使用这些数据结合 IBM Watson 建立、训练并部署 ML 模型。您将学习如何将模型端点整合到临床健康应用中,以生成对病人健康状况的预测。

解决方案概览

我们讨论的架构主要部分如下见图1:

使用病人数据改善健康结果医疗数据湖的形成以存储病人健康信息分析临床数据以提升医学研究从医疗服务提供者数据中获得操作洞察提供数据治理以维护数据隐私建立、训练和部署一个 ML 模型与医疗系统的整合

Figure 1 医疗行业使用 IBM CP4D 和 AWS 的数据管道

IBM Cloud Pak for Data (CP4D) 部署在 Red Hat OpenShift Service on AWS (ROSA)。它提供了组件 IBM DataStage、IBM Watson Knowledge Catalogue、IBM Watson Studio、IBM Watson Machine Learning,并提供多种可用于公共云或本地的数据源连接。

连接的健康设备通过边缘使用传感器和无线连接来收集病人健康数据如生物特征,并通过 Amazon Kinesis Data Firehose 将数据发送到 AWS 云。 AWS Lambda 将持久化到 Amazon Simple Storage Service (Amazon S3) 的数据进行转换,让医疗服务提供者可以访问这些信息。

Amazon Simple Notification Service (Amazon SNS) 在实时数据注入连接健康设备中出现问题时发送通知。若发生故障,则通过 Amazon SNS 主题发送消息以进行错误修正和重新处理故障消息。

DataStage 进行 ETL 操作,并将病人历史信息从 Snowflake 移动到 Amazon S3。这些数据与来自连接健康设备的数据相结合,形成一个医疗数据湖,该湖用于在 IBM CP4D 中构建和训练 ML 模型。

架构中描述的管道使用 Watson Knowledge Catalogue,该系统提供数据治理框架和丰富数据资产的物件。它保护敏感病人信息,防止未经授权的访问,例如可单独识别的信息、医疗历史、检测结果或保险信息。

数据保护规则定义了如何控制对数据的访问、掩盖敏感值或从数据资产中过滤行。这些规则在每次用户试图访问平台中任何受管辖的目录数据资产时自动评估和强制执行。

之后,数据集将发布到 Watson Studio 项目中,用于训练 ML 模型。您可以使用 Jupyter Notebook、IBM AutoAI低代码或 IBM SPSS 模型器无代码来开发模型。

在此用例中,我们使用 逻辑回归算法 来对事件进行分类和预测其概率,例如疾病风险管理,以帮助医生做出关键的医疗决策。您也可以使用算法如 分类、随机森林 和 K 最近邻 来建立 ML 模型,这些算法被广泛用于预测疾病风险。

一旦模型训练完毕,它们将作为端点向 Watson Machine Learning 开放,并整合到医疗应用中,以通过分析病人症状生成预测。

医疗应用是一类临床软体,提供关键的生理洞察并预测疾病的影响及可能的治疗。它提供内建的仪表板来显示病人信息以及病人整体结果和治疗的指标,帮助医疗从业者获得病况洞察。它还能帮助医疗机构优先考虑具有更多风险因素的病人,并制定临床和行为健康计划。

最后,我们使用 IBM Security QRadar XDR SIEM 收集、处理并汇总 Amazon Virtual Private Cloud (Amazon VPC) 的 流日志、AWS CloudTrail 日志和 IBM CP4D 日志。QRadar XDR 使用这些信息来进行安全管理,提供实时监控、警报和对威胁的反应。

医疗数据湖

医疗数据湖能帮助健康组织将数据转化为洞察。它是集中、经过策划,并安全地存储在 Amazon S3 上的数据。它还使您能够打破数据孤岛,结合不同类型的分析以获得见解。我们利用 DataStage、Kinesis Data Firehose 和 Amazon S3 服务建立医疗数据湖。

数据治理

Watson Knowledge Catalogue 提供数据发现、编目、质量和治理的 ML 目录。我们在 Watson Knowledge Catalogue 中定义政策以促进数据隐私及其整体访问和利用,包括需要通过数据保护、质量和自动化规则处理的敏感数据和个人信息。想了解更多 IBM 数据治理的信息,请参考 执行数据质量分析 (Watson Knowledge Catalogue)。

建立、训练和部署 ML 模型

Watson Studio 使数据科学家、开发人员和分析师能够在 IBM CP4D 上建立、运行和管理 AI 模型。

在此解决方案中,我们使用 Watson Studio 建立模型,流程如下:

从 Watson Knowledge Catalogue 推广治理数据到 Watson Studio 以获取洞察使用 ETL 功能,例如内建搜索、自动元数据传播和同步高亮,处理和转换大量数据训练模型,包括模型技术选择和应用、超参数设置和调整、验证、集成模型开发和测试、算法选择以及模型优化根据指标评估模型,计算混淆矩阵、KPI,模型性能指标,准确性和精确性的模型质量测量使用在线部署在 Watson Machine Learning 上部署模型,创建端点以实时生成分数或预测将该端点与应用集成,如健康应用,正如图1所示

总结

在这篇文章中,我们展示了如何使用病人数据改善健康结果,透过创建医疗数据湖和分析临床数据来达成。这可以帮助病人和医疗从业人员做出更好、更迅速的决策并优先考虑案例。还讨论了如何使用 IBM Watson 建立 ML 模型并将其整合进医疗应用进行健康分析。

其他资源

IBM 在 AWS 的合作伙伴页面在 AWS 上部署 IBM Cloud Pak for Data 的指南将 Cloud Pak for Data 审计记录导出到 QRadarAWS 市场上的 IBM Cloud Pak for DataAWS 市场上的 IBM Cloud Pak for Security

作者介绍

Eduardo Monich Fronza 是 AWS 的合作伙伴解决方案架构师。他的经验包括云计算、解决方案架构、应用平台、容器、工作负载现代化,以及混合解决方案。在他当前的角色中,Eduardo 帮助 AWS 合作伙伴及客户踏上云端采用之旅。

Rishit G Barochia 是 IBM 的云端软体架构师。他的经验涵盖技术架构、云端、微服务架构以及混合解决方案。他目前正参与 IBMAWS 的战略合作,帮助客户在 AWS 云上设计、规划和架构 IBM 软体解决方案。

在 AWS 上使用 IBM Cloud Pak for Data 构建医疗保健数据管道 架构博客

Sunil Gajula 是 IBMAWS 战略合作团队的解决方案架构师。他的经验包括云端、解决方案架构以及微服务架构。Sunil 热衷于帮助客户在分析之旅中成功。在当前角色中,他与 IBM 合作伙伴及客户合作,采用和开发 AI、ML 及分析解决方案。