貸し倒れの可能性¶
このページでは、借り手がローンを返済しない可能性を予測することで、債務不履行を減らして、リスクを最小限に抑えるユースケースを概説します。 このユースケースは、UI操作をベースにした基本ステップとして、以下で説明します。 このユースケースは、ダウンロードして実行できる Jupyterノートブックに含まれています。
ビジネス上の問題¶
2008年の金融危機の後、IASB(国際会計基準審議会)および FASB(財務会計基準審議会)は、会計基準を見直しました。 その結果、非予想損失(UL)を処理するための十分な規制目的上の自己資本を維持するために、予想信用損失(ECL)の見積もりを要求するように方針が更新されました。 現在、すべてのリスクモデルは厳格な精査を受けます。AIモデルを導き出そうとするときに規制ガイドラインを意識することが重要です。 このユースケースは、借り手が貸し手に返済しない可能性と定義される信用リスクに焦点を当てています。
信用リスクは、個人、SME、大企業で生じる可能性があり、各自がECLの計算に責任を負います。 資産クラスに応じて、企業ごとに採用する戦略や計算のコンポーネントが異なりますが、以下が含まれています。
- デフォルトの確率 (PD)
- 債務不履行時損失率(LGD)
- 債務不履行時エクスポージャー(EAD)
ECLの計算での最も一般的なアプローチは次のとおりです(これらの要因の詳細については、 問題のフレーミングを参照してください)。
ECL = PD * LGD * EAD
このユースケースでは、消費者の融資ポートフォリオに対してPDモデルを構築することに焦点を当て、LGDおよびEADモデリングに関連する提案を提供します。 ここで説明するテクニックの一部を使用するためのサンプルトレーニングデータセットは、 Kaggleで公開されていますが、解釈しやすいように、この例のKaggleデータセットを正確に表しているわけではありません。
ここをクリックすると、データの操作から始まる実践的なセクションに直接ジャンプします。 それ以外の場合は、次のいくつかの項で、このユースケースのビジネス上の正当な理由と問題の枠組みについて説明します。
ソリューションの価値¶
信用に関する多くの意思決定システムは、非常にシンプルなルールベースのシステムであるスコアカードに基づいています。 これらは、エンドユーザー組織によって業界知識またはシンプルな統計システムを通じて構築されます。 一部の組織は、さらに一歩進んでサードパーティからスコアカードを入手しますが、これらのスコアカードは、個々の組織の帳簿に合わせてカスタマイズされていない場合があります。
AIベースのアプローチにより、金融機関は自身の帳簿からシグナルを学習し、より詳細なレベルでリスクを評価することができます。 リスクが計算されると、この情報を介入に利用する戦略が実行されるかもしれません。 債務不履行になる借り手を予測できれば、早期の通知送付、融資申請の却下などの介入ステップにつなげることができます。
問題のフレーミング¶
銀行は、信用リスク、市場リスク、運用リスクなど、さまざまな種類のリスクを取り扱います。 ECL = PD * LGD * EAD
を使用したECLの計算が、現在最も一般的なアプローチです。 リスクは、金融用語で結果または投資の実利益が、期待される結果または利益と異なる可能性と定義されています。
問題を位置付ける方法は数多くありますが、この特定のユースケースでは、債務不履行率(PD)モデルを構築し、債務不履行時損失率(LGD)および債務不履行時エクスポージャー(EAD)モデリングに関連するガイダンスを提供します。 PDモデルの場合、ターゲット特徴量はis_bad
です。 トレーニングデータでは、0
は借り手が支払ったことを示し、1
は債務不履行を示します。
以下は、ECL数式の各コンポーネントの定義に関する追加的なガイダンスです。
デフォルトの確率 (PD)
- 借り手が債務を全額返済できない、または期日までに返済できないこと。
- 通常、ターゲットは90日の不履行として定義されます。
- 機械学習モデルは、特定の資産クラスに対して十分なデータが提供される場合、一般に良好な結果を提供します。
債務不履行時損失率(LGD)
- エクスポージャー全体に対する、債務不履行が発生した場合に貸し手が回収できない金額の比率。
- 通常、ターゲットは回収率として定義され、値は0~1です。
- この問題に必要な機械学習モデルは、通常、あまり一般的ではなく、多くの統計ソフトウェアでサポートされているベータ回帰を使用します。 ターゲットの多くの値がゼロであるため、これを2つのステージに分割できます。
- ステージ1 - モデルは、0よりも大きい回収の可能性を予測します。
- ステージ 2 - モデルは、回収の可能性が0よりも大きいすべての融資について回収率を予測します。
債務不履行時エクスポージャー(EAD)
- 借り手が債務不履行になったときに貸し手がリスクにさらされる金額の総額。
- ターゲットは、融資元金に対する、借り手が債務不履行になった時点での未払い額の比率です。
- 一般に、MSEを損失として用いる機械学習モデルが使用されます。
ROIによる見積もり¶
このソリューションを実装するためのROIは、次の要因を考慮して見積もることができます。
-
ROIは、ビジネスおよびポートフォリオの規模によって異なります。 たとえば、抵当融資のROIはクレジットカードポートフォリオのROIとは極めて異なります。
-
あるコンプライアンスフレームワークから別のフレームワークに移行する場合は、新規ポートフォリオと既存ポートフォリオを別々にモデリングするかどうかを適切に考慮し、その場合はROI計算を適切に調整する必要があります。
-
ROIは意思決定システムによって異なります。 融資承認に関する二値(イエスまたはノー)の意思決定の場合は、真陽性、偽陽性、真陰性、偽陰性の量にドル金額を割り当てることができます。 その総額が所定のしきい値の金額です。 既存モデルがある場合は、既存モデルと新規モデルの結果の差異が、得られるROIです。
-
意思決定が二値でない場合は、すべての意思決定ポイントで、提供された融資と完了した回収の差異を評価します。
データの操作¶
説明の都合上、このユースケースでは、 Kaggleで公開されている、Home Credit Group提供のホームクレジットに関するサンプルデータセットを使用します。
サンプル特徴量セット¶
特徴量名 | データ型 | 説明 | データソース | 例 |
---|---|---|---|---|
Amount_Credit | 数値 | 個人が引き受けた債務 | アプリケーション | 20,000 |
Flag_Own_Car | カテゴリー | 申請者が車を所有している場合にフラグを立てる | アプリケーション | 1 |
Age | 数値 | 申請者の年齢 | アプリケーション | 25 |
CreditOverdue | Binomial | 債務が期限超過かどうか | 金融庁 | TRUE |
チャネル | カテゴリー | 債務を受け入れたチャネル | PreviousApplication | オンライン |
Balance | 数値 | クレジットカードの残高 | CreditCard | 2,500 |
Is_Bad | 数値(ターゲット) | 借り手が債務不履行したかどうか、0または1 | 金融庁 | 1(デフォルト) |
モデリングとインサイト¶
DataRobotでは、 ここで説明するように、データセットの処理や分割など、モデリングパイプラインの多くの部分が自動化されます。 このユースケースでは、モデリングセクションをスキップして、モデルの解釈に直接進みます。
DataRobotが提供するさまざまなインサイトを使用して、 結果の解釈と 精度の評価を行います。
結果の解釈¶
自動モデリングが完了すると、リーダーボードで各モデルがランク付けされます。 デフォルトでは、DataRobotは評価指標としてLogLossを使用します。
特徴量のインパクト¶
特徴量のインパクトでは、各特徴量とモデルターゲットの関連が表示されます。 例:
特徴量ごとの作用¶
さまざまなレベルの入力特徴量でインパクトの方向性と債務不履行リスクを把握するため、DataRobotは 特徴量ごとの作用に部分依存プロットを表示し、入力特徴量の値に応じて債務不履行がどのように変化する可能性があるのかを示します。 入力特徴量の値に応じて債務不履行がどのように変化する可能性があるのかを示します。
ここでは、AMT_CREDIT
(融資金額)の例を挙げています。融資金額が30万ドルを超えると、債務不履行リスクが6%から7%へと1段階上昇し、融資金額が約50万ドルになると、もう1段階上昇して7.8%になります。
予測の説明¶
予測の説明の視覚化では、モデルがスコアリングして優先順位を付けた各アラートに対して、人間が解釈可能な根拠を提供します。 以下の例では、ID=3606のレコードの融資が債務不履行になる可能性が非常に高くなります(予測 = 51.2%)。 主な理由は、外部ソース(EXT_SOURCE_2
とEXT_SOURCE_3
)からの情報および収入源(NAME_INCOME_TYPE
)がpension
であることです。
予測の説明は、規制コンプライアンスの維持にも役立ちます。 融資に関する特定の意思決定が下された理由を提供します。
精度の評価¶
次のインサイトは、精度を評価する上で役に立ちます。
リフトチャート¶
リフトチャートには、債務不履行の申請と債務不履行ではない申請を分離するモデルの効果が表示されます。 アウトオブサンプルパーティション内の各レコードは、トレーニング済みのモデルによってスコアリングされ、債務不履行の可能性を割り当てられます。 リフトチャートでは、レコードが可能性の予測に従って並べ替えられ、10デシルに分類されて、リスクの低い順から高い順に表示されます。 デシルごとに、DataRobotは平均予測リスク(青色の線/プラス記号)と実際の平均リスク(オレンジ色の線/丸記号)を計算し、この2つのグラフを一緒に表示します。 一般的に、実際の線の勾配が急である程、予測値の線と実測値の線との一致度が高くなり、モデルの精度が高くなります。 一貫した増加を見せる線は、もう1つの望ましい指標です。
ROC曲線¶
モデルのパフォーマンスが良好であることがわかったので、次は DataRobotによって予測された連続的な債務不履行リスクに基づいて二値決定を行うために、明確なしきい値を選択します。 ROC曲線ツールは、最適なしきい値の選択時に重要ないくつかの決定を下すのに役立つさまざまな情報を提供します。
- 偽陰性率をできるだけ低くする必要があります。 偽陰性とは、債務不履行ではないとフラグが付けられたが、実際には支払いが債務不履行になる申請です。 本当の債務不履行を見逃すのは危険で、代償を伴います。
- 選択したしきい値が、目に見えるデータだけでなく、目に見えないデータに対しても機能するように確認する必要があります。
後処理¶
規制に関する考慮事項が少ないケースでは、ストレートスルー処理(SIP)が可能な場合があり、予測に基づいてイエスかノーの決定を自動的に取得することができます。
ただし、より一般的なアプローチは、リスクの可能性をスコア(つまり、ExperianやTransUnionなどの組織によって決定される信用スコア)に変換する方法です。 スコアは、確率バケットのエクスポージャーおよびSMEに関する知識に基づいて導き出されます。
信用リスクに使用される機械学習モデルの大半は、モデルリスク管理(MRM)チームからの承認を必要とします。これに対処するために、コンプライアンスレポートには、モデル開発プロセスの各ステップに関する包括的な証拠と根拠が記載されます。
予測とデプロイ¶
データのパターンを学習するのに最も適切なモデルを見つけた後、そのモデルを目的の意思決定環境にデプロイできます。 意思決定環境とは、モデルで生成された予測結果を組織内の適切な関係者が使用する方法、およびそれらの関係者がその予測値に基づいて全体のプロセスに影響する意思決定を行う方法を指します。
意思決定では、自動/ストレートスルー処理または手動介入を組み合わせることができます。 自動化の程度はポートフォリオとビジネス成熟度によって異なります。 たとえば、銀行やフィンテックでのリテール融資またはピアツーピアポートフォリオは高度に自動化されます。 一部のフィンテックは、融資の処理時間の短さを売りにしています。 住宅ローンのような高額商品とは異なり、法人融資は人手が介在している場合があります。
意思決定の関係者¶
次の表に、潜在的な意思決定の関係者を示します。
利害関係者 | 説明 |
---|---|
意思決定の実行者 | 予測を直接利用するのは引受チームです。 これらは、ストレートスルー処理の場合は直接のシステムで、手動介入の場合はフロントオフィスの引受チームになります。 |
意思決定の管理者 | 意思決定は、ポートフォリオの最終的なリスクについて責任を負う最高リスク管理責任者(CRO)に渡されます。 ただし、組織の構造に基づき、中間に管理者が存在します。 |
意思決定の作成者 | 信用リスクチームのデータサイエンティストがモデリングを実行します。 モデルリスク監視チームもここでの主な関係者です。 |
意思決定プロセス¶
モデルが規制の少ない環境で使用される場合を除き、一般に、直接的なイエスかノーの決定は行われません。 一般に、リスクはスコアに変換され、スコアに基づき、金利または貸付限度額が顧客に提示されます。
モデル監視¶
予測は、ビジネスの性質に基づき、リアルタイムまたは一括モードで実行されます。 データドリフトのためには定期的な監視とアラートが重要です。 これは、モデルリスクの観点で特に重要になります。 これらのモデルは、堅牢で長く使用できるように設計されているため、他の業種よりも再調整の頻度が少なくなる場合があります。
実装に関する考慮事項¶
-
信用リスクモデルでは、通常、Experian、FICOのようなサードパーティソリューションとの統合が必要です。 デプロイ要件について、レガシーツールからの移行が可能かどうかを確認することをお勧めします。
-
信用リスクモデルでは、検証チームからの承認が必要です。機械学習モデルをこれまでに承認したことのないチームの場合、モデル承認の新しい方法を導入するよう説得するのに非常に長い時間がかかることがあります。
-
モデル検証チームは、特定の資産に対して厳格な要件を設けていることがあります。 たとえば、方程式を生成する必要があるモデルの場合、モデルコードをエクスポートします。 これらのすべての質問について事前にモデリングチームと話し合ってから、最終モデルを検証チームに持ち込むようにしてください。
-
過去の債務不履行率が低い資産については代替アプローチを検討します。モデルはROIを証明するのに十分な精度を実現できない可能性があるためです。
このユースケースでは、従来のリスク分析に加えて、 ターゲットリーケージに注意する必要があります。 予測の時点では利用すべきでない情報を、モデルのトレーニングに使用している場合に、ターゲットリーケージが発生する可能性があります。 つまり、特定の特徴量から最終結果に関する情報が洩れてしまい、トレーニング中のモデルのパフォーマンスが人為的に上昇する結果となります。 このドキュメントで説明する実装の特徴量は比較的少ないですが、結合が不適切なために複数のデータセットをマージする場合は常に、ターゲットリーケージに留意することが重要です。 DataRobotは、2回目の探索的データ分析(EDA)時、およびオートパイロット中に情報に富んだ特徴量セットを選択する際に、強力なターゲットリーケージ検出をサポートします。
AIアプリ¶
ノーコードアプリやStreamlitアプリは、モデルの集計結果(エンティティレベルでのリスクの高い取引など)を表示する場合に役立ちます。 利害関係者が予測を活用して、調査結果を記録できるカスタムアプリケーションの構築を検討してください。 モデルがデプロイされると、予測を 意思決定プロセスで使用できます。 たとえば、この AIアプリは、ノーコードインターフェイスを使用して、簡単に共有できるAI搭載のアプリケーションです。
ノートブックのデモ¶
このアクセラレーターのノートブックバージョンは、 こちらを参照してください。