DataRobotでの因果AIの使用¶
予測AIモデルは、観測された特徴量間の微妙な予測関係性を明らかにするための強力なツールです。 しかし、観測された相関関係だけでなく、2つの変数の因果関係性について結論を導き出す必要がある場合もあります。 この「因果AI」を実現するには、DataRobotプラットフォームと「治療加重の逆傾向」と呼ばれる準実験的技法を使用できます。 このノートブックでは、この手法を糖尿病患者の再入院に関するデータに適用します。
このノートブックでは、以下のことを行う方法がまとめられています。
- 治療傾向モデルのためのデータを準備する
- 治療傾向モデルをDataRobotに適合させる
- 逆確率の重みを計算する
- 逆確率重み付け法を使用した因果関係を評価する
- 逆確率重み付け法を理解する
このノートブックでは、糖尿病患者の再入院転帰を記録したデータを扱います。 糖尿病患者の投薬状況とその後の再入院の可能性との因果関係性を評価します。
この因果関係性を実験的に評価するには、患者を無作為に治療群(投薬を受けている患者)とそうでない群に割り当て、その患者が再入院するかどうかを追跡調査する必要があります。 しかし、このノートブックのシナリオでは、実験データがありません。観測値データしかありません。 言い換えれば、薬を投与する患者もいればそうでない患者もいるということです。 研究対象への「治療」条件(投薬)の割り当てを制御していないのです。 そのため、予測モデリングを使用して、来院する患者の服薬状況が、後の再入院の予測であるかどうかを理解することはできますが、予測モデルを直接使用して、投薬が再入院に因果関係があるかどうかを結論づけることはできません。
このシナリオでは、「準実験」技法を使用できます。これは、実際に真のエクスペリメントを行うことなく、実験装置を近似するための一連の技法です。 具体的には、「治療加重の逆傾向」と呼ばれる技法を使用できます。
治療加重の逆傾向は、以下のステップで構成されます。
- 予測モデルを適合させ、治療群に割り当てられる各研究参加者の確率(「治療傾向」)を推定します。
- 各参加者の治療傾向に基づいて特殊な加重を計算します(「治療加重の逆傾向」)。これは、観測された交絡変数に関して、治療群と対照群がより類似するように調整します。
- 調整/加重された母集団(疑似母集団)を使用して、治療と転帰の因果関係性を評価します。 この技法は、ランダム化比較試験のゴールドスタンダードほど有効ではありませんが、因果関係性を判断するための比較可能な治療群と対照群を得ることに大きく近づくことができます。