30日間の再入院率の低下¶
このページでは、リスクのある患者を予測することで30日以内の再入院率を低減するユースケースの概要を紹介します。 このユースケースは、UI操作をベースにした基本ステップとして、以下で説明します。 このユースケースは、ダウンロードして実行できる Jupyterノートブックに含まれています。
ビジネス上の問題¶
「再入院」イベントとは、患者が病院を退院してから30日以内に再入院することです。 再入院は、医療システム間の連携が取れておらず、患者とその健康状態を十分に把握できていない状況を反映しているだけでなく、医療提供者と支払者の双方に多大な経済的負担を強いることになります。 米国政府は2011年に、あらゆる原因による30日以内の再入院が約330万件に上り、医療機関のコストが総額413億ドルに達すると推定しています。
再入院を低減する上で最も重要な課題は、最初の入院から退院までの間に患者のリスクを正確に予測することです。 再入院は患者の病歴、入院診断、社会的決定要因など多くの要因によって発生しますが、再入院の可能性を評価するために使用される既存の方法(LACE/HOSPITALスコアなど)では、さまざまな要因を効果的に考慮することができません。 これらの従来の評価方法では検討事項がごくわずかに限られており、健康評価とその結果を最適化できません。
ソリューションの価値¶
臨床医やケアマネージャーはAIを使用して、自分たちが治療に当たっている患者との持続的な強いつながりを育むために必要な情報を得ることができます。 どの患者がリスクを抱えているかを予測し、患者の退院前後に臨床医が介入戦略を策定できるようにすることで、再入院率を低下させることが可能です。 AIモデルは大量のデータを取り込んで、特定の患者が再入院する可能性が高い理由の背後にある複雑なパターンを学習することができます。 モデルの解釈性が向上することで、そのすべての予測に対して個別の説明が提供されるため、臨床医は常にすべての患者の主なリスク要因についてのインサイトを把握できるようになります。
臨床医は医療AIという形でAIを利用すれば、臨床医が提供する治療と、すでに実施している他の処置を強化することで、患者の健康を改善するためのインテリジェントな介入を行うことができます。 臨床医は、学習した情報を活用して、患者と直接会って退院時の手続きを丁寧に説明したり、外来の予約を追加して患者を安心させたり、介入を増やしたりすることで、患者の再入院の可能性を減らすことができます。
問題のフレーミング¶
問題を組み立てる1つの方法は、ユースケース用のROIの測定方法を決定することです。 以下の点に注意してください。
現在の再入院コスト:
現在の年間再入院率 x 年間の入院患者退院数 x 平均の再入院コスト
再入院の新しいコスト:
新しい年間再入院率 x 年間の入院患者退院数 x 平均の再入院コスト
ROI:
新しい再入院コスト - 現在の再入院コスト
その結果、コスト推定値のトップダウン計算は次のようになります。
ROI:
現在の再入院コスト x 再入院率の改善
たとえば、米国内レベルで各医療機関の再入院コストをトップダウン計算で算出すると$41.3 billion / 6,210 US providers = ~$6.7 million
になります。
説明の都合上、このチュートリアルでは、7万人の糖尿病患者の再入院について調査した 医学雑誌で提供されるサンプルデータセットを使用します。 この調査の研究者は、Cerner社が提供するHealth Factsデータベース(米国医療提供者全体の臨床記録)からこのデータを収集しています。 Cerner社の電子医療システムを利用している組織は、研究目的でHealth Factsのデータを無償で利用できます。 すべてのデータは、HIPAAに従ってPIIが消去されています。
特徴量とサンプルデータ¶
このユースケースの特徴量は、再入院の予測を行った理由に関する主な要因を表しています。 各患者の背景、診断内容、病歴を網羅しており、DataRobotはこうした特徴量を基に患者の既往歴から関連するパターンを検出し、再入院のリスクを評価します。
以下に挙げた特徴量以外にも、再入院に関連する可能性がある追加データがあれば、組織に収集して組み込むことをお勧めします。(選択によってモデリングが改善されない場合、DataRobotは重要な特徴量と重要でない特徴量をすばやく区別できます。)
関連する特徴量は一般的に、EMRシステム(Epic社やCerner社など)で使用される独自のデータソースに保存され、以下のものが含まれています。
- 患者データ
- 診断データ
- 入院データ
- 処方データ
その他の外部データソースでも、次のような関連データを提供する場合があります。
- 季節別のデータ
- 人口統計データ
- 社会的決定要因データ
データ内の各レコードは、患者固有の診療を表します。
ターゲット¶
ターゲット特徴量:
Readmitted
この特徴量は、True \\ False
、1 \\ 0
などの値を使用して、患者が退院後30日以内に再入院したかどうかを表します。このターゲットの選択により、これは二値分類問題になります。
サンプル特徴量セット¶
特徴量名 | データ型 | 説明 | データソース | 例 |
---|---|---|---|---|
Readmitted | 二値(ターゲット) | 患者が30日後に再入院したかどうか | 入院データ | False |
Age | 数値 | 患者の年齢層 | 患者データ | Female |
ウェイト | カテゴリー | 患者の体重 | 患者データ | 50-75 |
Gender | カテゴリー | 患者の性別 | 患者データ | 50-60 |
人種 | カテゴリー | 患者の人種 | 患者データ | 白色人種 |
入院タイプ | カテゴリー | 入院時の患者の状態(随意、応急、緊急など) | 入院データ | 随意 |
退院後の対応 | カテゴリー | 患者の退院後の状態(自宅、在宅医療など) | 入院データ | 自宅退院 |
入院理由 | カテゴリー | 患者の入院理由(医師の紹介状、救急外来、転院など) | 入院データ | 医師の紹介状 |
入院日数 | 数値 | 入院期間 | 入院データ | 1 |
支払人コード | カテゴリー | 患者の支払者の固有コード | 入院データ | CP |
医療専門分野 | カテゴリー | 患者が入院している医療専門分野 | 入院データ | 神経外科 |
検査手順 | 数値 | 過去の総検査数 | 入院データ | 35 |
処置 | 数値 | 過去の総処置数 | 入院データ | 4 |
外来受診 | 数値 | 過去の総外来診療数 | 入院データ | 0 |
ER外来 | 数値 | 過去の緊急治療室での総診療数 | 入院データ | 0 |
入院診療回数 | 数値 | 過去の総入院診療回数 | 入院データ | 0 |
診断 | 数値 | 総診断数 | 診断データ | 9 |
ICD10診断コード | カテゴリー | 患者の状態に関するICD10診断。複数存在する可能性あり(追加列) | 診断データ | M4802 |
ICD10診断の説明 | カテゴリー | 患者の診断に関する説明。複数存在する可能性あり(追加列) | 診断データ | 脊柱管狭窄症、頸部 |
Medications | 数値 | 患者に処方された薬の総数 | 処方データ | 21 |
処方薬 | 二値 | 患者に薬が処方されているかどうか。複数存在する可能性あり(追加列) | 処方データ | メトホルミン – いいえ |
データプレパレーション¶
元の未加工のデータは、約7,400万件の個別診療データで構成され、その中には、約300万の医療提供者が管理する1,800万人に及ぶ患者の情報が含まれています。 このデータには、統合医療システムと個々の医療提供者の医療記録の両方が含まれていたため、当初は入院と外来の両方の情報がありました。
元のデータスキーマは、117個の特徴量が含まれる41の表で構成されていましたが、最終的なデータセットは、ユースケースに基づいて関連する患者と特徴量でフィルタリングされました。 対象患者は以下の患者に絞られました。
- 入院患者
- 糖尿病を患っている
- 入院日数が1~14日
- 入院中に臨床検査を実施(または実施していない)
- 入院中に薬を処方(または処方されていない)
他の特徴量はすべて、関連性の欠如やデータの完全性の低さのために除外されました。
DataRobotをデータソースに接続する方法、特微量エンジニアリングを行う方法、データサイエンスのベストプラクティスに従う方法などの詳細については、 DataRobotのドキュメントを参照してください。
モデリングとインサイト¶
DataRobotでは、 ここで説明するように、データセットの処理や分割など、モデリングパイプラインの多くの部分が自動化されます。 このユースケースでは、モデリングセクションをスキップして、モデルの解釈に直接進みます。 DataRobotの詳しい利用方法と、自動化に組み込まれているデータサイエンス手法については、 DataRobotのドキュメントを参照してください。
このユースケースでは、糖尿病患者の再入院の可能性を予測する1つの統合モデルを作成します。
特徴量のインパクト¶
特徴量のインパクトチャートを見ると、患者の過去の入院診療回数、退院区分、診断の診療科目の3つが、再入院を左右する最も影響力のある上位の特徴量であることがわかります。
特徴量ごとの作用/部分依存¶
部分依存グラフを評価して、上位の特徴量が予測結果に与えるわずかな影響をさらに評価すると、患者の過去の入院診療回数が0から2に増加すると、再入院の可能性が37%から53%に跳ね上がることがわかります。 診療回数が4回を超えると、再入院の可能性が約59%に上昇します。
予測の説明¶
DataRobotの 予測の説明では、生成された予測ごとにモデルの結果を解釈するためのより詳細なビューを提供しています。 これらは、上位の予測特徴量に基づいて、特定の患者が再入院するかどうかが予測された理由を説明しています。
後処理¶
臨床医が予測結果を直感的に利用できるようにするために、予測結果を確率値または二値として表示するのではなく、事前定義された予測しきい値の範囲に基づいて後処理で予測結果にさまざまなラベルを付けられます。 たとえば、再入院のリスクに応じて、高リスク、中リスク、低リスクというラベルを患者に付けます。
予測とデプロイ¶
データの最適なパターンを学習して再入院を予測するモデルを選択したら、それを目的の意思決定環境にデプロイできます。 意思決定環境とは、モデルで生成された予測結果を適切な組織の 利害関係者が使用する方法、およびそれらの関係者がその予測値に基づいて全体のプロセスに影響する意思決定を行う方法を指します。 この部分はユースケースの実装において重要であり、これによって再入院を減らし、臨床上の改善を達成するために予測が実業務で使用されるかどうかが決まります。
臨床医やケアマネージャーはDataRobotを使用することで、最も大切にしている相手、つまり患者との永続的な強いつながりを育むために必要な情報を獲得できます。 データパイプラインで意思決定を自動化できるユースケースはいくつかありますが、再入院モデルは、臨床医の意思決定力を強化するためのものです。 これはインテリジェントなマシンとして機能し、臨床医の専門知識と組み合わせることで、患者の転帰を向上させることができます。
意思決定の関係者¶
次の表に、潜在的な意思決定の関係者を示します。
利害関係者 | 説明 | 例 |
---|---|---|
意思決定の実行者 | 意思決定の実行者は、意思決定を日常的に利用して再入院の可能性が高い患者を特定し、介入の手段を把握する必要がある臨床関係者です。 | 看護師、医師、ケアマネージャー |
意思決定の管理者 | 医療提供者の再入院改善プログラムのパフォーマンス分析プログラムを監視および管理する経営幹部の関係者です。 | 医療部長、看護師長、公衆衛生部長 |
意思決定の作成者 | 意思決定フローを適切に設定するテクノロジー部門の関係者。 | 臨床オペレーションアナリスト、ビジネスインテリジェンスアナリスト、データサイエンティスト |
意思決定プロセス¶
しきい値を設定して、予測が予見された再入院として扱うかどうかを判断することができます。 臨床医が必要な介入戦略を策定できるように、しきい値のレベルごとに明確な対処項目を割り当てます。
低リスク:退院時の手続き、注意すべき症状、外来通院に関する情報を含む電子メールまたはテキストを自動送信します。
中リスク:退院時の手続き、注意すべき症状、外来通院に関する情報を含む電子メールまたはテキストを何回かのリマインダーも含め、複数回にわたり自動送信します。 退院後10日に患者を電子メールでフォローアップし、患者の状態を判断します。
高リスク:臨床医が、患者に退院手続きについて直接説明します。 退院時の手続き、注意すべき症状、外来通院に関する情報を含む電子メールまたはテキストを何回かのリマインダーも含め、自動送信します。 退院後、毎週患者を電話または電子メールでフォローアップし、患者の状態を判断します。
モデルデプロイ¶
臨床医はDataRobotを使用して、常にすべての患者の主なリスク要因を明確に把握し、患者が退院する前後でインテリジェントな介入を実施できるようになります。 モデルデプロイの概要については、 DataRobotのドキュメントを参照してください。
AIアプリ¶
利害関係者が予測を活用して、調査結果を記録できるカスタムアプリケーションの構築を検討してください。 モデルがデプロイされると、予測を 意思決定プロセスで使用できます。 たとえば、この AIアプリは、ノーコードインターフェイスを使用して、簡単に共有できるAI搭載のアプリケーションです。
患者データを入力するには、新しい行を追加をクリックします。
他の業務システム¶
医療提供者の日常業務ワークフローに組み込まれている他のシステムに予測を統合できます。 医療提供者のEMRシステムやBIダッシュボードには予測結果を統合できます。 前者の場合、臨床医は、すでに日常的に利用しているデータに列として予測を追加することで簡単に確認でき、担当する患者を監視できます。 予測が解釈可能で透明性を持つようになるため、モデルが患者の再入院の有無を予測した理由を理解できるようになります。
一般的な統合には次のものがあります。
- 電子カルテシステム(Epicなど)に結果を表示する
- ビジネスインテリジェンスツール(Tableau、Power BIなど)に結果を表示する
以下は、予測値をMicrosoft Power BIに統合して、臨床医がアクセスできるダッシュボードを作成し、再入院を防ぐために対処すべき患者の決定をサポートする例を示します。
以下のダッシュボードには、あるフロアにおける各患者の再入院の確率が表示されています。 ここに、患者の再入院の可能性と、モデルがそのような予測を行った理由に関する上位要因が表示されます。 看護師と医師は、このようなダッシュボードを利用して、どの患者が再入院する可能性が高いのか、その理由を把握することができ、各患者固有のニーズに合わせた予防戦略を実施することができます。
モデル監視¶
意思決定の運用者—IT/システム運用者、データサイエンティスト—は、このユースケースを次のように実装する可能性があります。
予測サイクル:毎日生成されるバッチ予測。
モデル再トレーニングのサイクル:割り当て済みのしきい値にデータドリフトが達した場合に、モデルが再トレーニングされます。それ以外の場合、新しい営業四半期の期首ごとにモデルを再トレーニングします。
DataRobotの パフォーマンス監視機能—(特にサービスの正常性、データドリフト、精度)を使用して、定期的なレポートを作成し、関係者に配布します。
実装に関する考慮事項¶
以下は、いくつかの潜在的な実装リスクを強調しています。これらはすべて一度認識されれば対処が可能です。
問題 | 説明 |
---|---|
アクセス | 臨床医が予測結果に簡単かつ便利な方法でアクセスできない(すでに利用しているEHRを別のウェブブラウザーで開く必要がある場合、または情報量が多すぎる場合)。 |
分かりやすさ | 臨床医が直感的に理解できるような予測にならない。 |
解釈可能性 | 予測やモデルがそのように予測した理由を臨床医が理解できない。 |
規範的 | 臨床医が高リスクの症例に対応するための戦略を策定できない。 |
信頼できるAI¶
このユースケースでは、従来のリスク分析に加えて、AI Trustの次の要素に注意する必要があります。
ターゲットリーケージ:ターゲットリーケージは、予測の時点では利用すべきでない情報を、モデルのトレーニングに使用している場合を表します。 つまり、特定の特徴量から最終結果に関する情報が洩れてしまい、トレーニング中のモデルのパフォーマンスが人為的に上昇する結果となります。 このユースケースでは、41種類の表と幅広い期間のデータを集約する必要があるため、潜在的なターゲットリーケージの影響を受けやすくなっています。 このモデルの設計とデータの準備段階では、予測の時点(退院)を特定し、それ以降のデータが含まれていないことを確認することが極めて重要です。 DataRobotはさらに、2回目の探索的データ分析時、およびオートパイロット中に情報に富んだ特徴量で特徴量セットを選択する際に、強力な ターゲットリーケージ検出を追加でサポートします。
バイアスと公平性:このユースケースでは、保護対象として分類される特徴量や、機微情報である特徴量(年齢、性別、人種)を利用します。 保護対象のグループ全体にわたってエラー率が同一であるかどうか評価することをお勧めします。 たとえば、人種が異なる患者間で偽陰性率と偽陽性率が同等かどうかを比較します。 特定の保護対象の特徴量に対する予測の精度が低く、再入院のおそれがある患者を特定できない場合にリスクが発生します。 必要と判断した場合、モデリングプロセスのさまざまな段階でバイアスを軽減する方法を検討できます。 DataRobotの バイアスと公平性のリソースは、モデルのデプロイ前後のバイアスを特定するのに役立ちます。
AIアプリ¶
利害関係者が予測を活用して、調査結果を記録できるカスタムアプリケーションの構築を検討してください。 モデルがデプロイされると、予測を 意思決定プロセスで使用できます。 たとえば、この AIアプリは、ノーコードインターフェイスを使用して、簡単に共有できるAI搭載のアプリケーションです。
ノートブックのデモ¶
このアクセラレーターのノートブックバージョンは、 こちらを参照してください。