How-to:マネーロンダリング防止(AML)アラートのスコアリング¶
この基本ステップでは、顧客情報や取引情報などの履歴データを使用して、どのアラートが疑わしい取引の報告(SAR)につながったかを識別するモデルを構築するための詳細な手順を説明します。 次に、このモデルを使用して、不審なアクティビティスコアを将来のアラートに割り当て、スコアによるランク付けを使用してAMLコンプライアンスプログラムの効率を向上させることができます。
Jupyter Notebook版
この基本ステップではDataRobotのUIを使用していますが、Jupyter Notebook版も用意されています。
ユースケースの詳細については、マネーロンダリング防止(AML)アラートスコアリングガイドを参照し、この基本ステップでの作業と並行して確認してください。
ダウンロードするアセット¶
この基本ステップに従って操作するには、モデルのトレーニングと評価に使用するデータセットを以下からダウンロードしてください。 このデータセットには、ある金融機関からのアラートのサンプルが含まれています。
重要
DataRobotでのデータ分析入門で詳しく説明されている手順に従って、データセットをアップロードし、モデリングの準備をします。
モデルの構築¶
データのアップロードと分析が完了したので、モデルを構築します。
-
データのアクション > モデリングを開始をクリックします。
-
新しいエクスペリメントを設定ウィンドウで、ターゲット特徴量フィールドに
SARを指定します。 -
残りのフィールドはデフォルトのままにして、Nextへをクリックします。
備考
追加設定の詳細については、モデリング設定の開始を参照してください。
-
すべてのパーティショニング変更フィールドをデフォルトのままにして、モデリングを開始をクリックします。
-
DataRobotはモデルの構築を開始します。
-
しばらくすると、モデルリーダーボードが表示され、トレーニングの進捗状況が示されます。
モデル構築にかかる時間
モデル構築にかかる時間は、データセットのサイズによって異なります。 完了すると、ワーカーペインに「現在実行中のジョブはありません」と表示されます。
構築後の各モデルの評価方法について詳しくは、モデルを比較を参照してください。
モデルの評価と解釈¶
一連のモデルを分析する準備ができたので、最上位モデルを選択して詳細を確認します。 DataRobotでは、モデルリーダーボードで最も精度の高いモデルにデプロイの準備済みというフラグが設定されます。
モデルをクリックすると、その詳細情報が表示されます。 詳細ペインのタブを使用して、以下に示すように、さまざまなインサイトを探索します。
DataRobotには、疑わしい取引として特定のアラートにフラグが立てられた理由を評価するために利用できるさまざまなツールが用意されています。 このユースケースに最も関連するツールの使用方法については、以下のセクションを参照してください。
ブループリント¶
モデルの詳細ページから、詳細 > ブループリントをクリックすると、モデルの作成に使用される前処理ステップ、モデリングアルゴリズム、後処理ステップのパイプラインであるモデルの ブループリントが表示されます。
特徴量のインパクト¶
説明 > 特徴量のインパクトをクリックしてから、計算するをクリックすると、データセット内の各特徴量とターゲットの関連性を確認できます。
備考
特徴量のインパクトの計算には数分かかる場合があります。
DataRobotは、最もインパクトの大きい3つの特徴量(機械がSARアラートと非SARアラートを区別できるようにする)を特定します。この例では、total merchant credit in the last 90 days、number refund requests by the customer in the last 90 days、total refund amount in the last 90 daysです。
特徴量ごとの作用¶
さまざまなレベルの入力特徴量でインパクトの方向性とSARリスクを把握するため、DataRobotでは、特徴量ごとの作用タブに部分依存グラフが用意されています。 説明 > 特徴量ごとの作用をクリックしてから、計算するをクリックすると、入力特徴量の値に応じてSARがどのように変化する可能性があるのかが示されます。
備考
特徴量ごとの作用の計算には数分かかる場合があります。
この例では、過去90日間の加盟店総与信額(x軸)が最もインパクトの大きい特徴量ですが、SARリスク(y軸)は与信額が増加しても直線的に増加するわけではありません。 このチャートから、SARリスクは、金額が1000ドルを下回っている場合は比較的低いままであり、1000ドルを超えると急上昇し、1500ドルに近づくと鈍化することがわかります。
個々の予測の説明¶
データセット内の各特徴量が予測結果全体にどのように寄与しているかの内訳を確認するには、説明 > 個々の予測の説明をクリックします。 このタブには、機械学習モデルによりスコアリングと優先順位付けが行われた各アラートの説明が表示されます。
上の図は、モデルからの5つのランダム予測のサンプルを示しています。 チャートの下にあるサンプリングする予測をクリックすると、チャートの生成に使用する予測の合計数を調整できます。
予測リスト内の特定の予測をクリックすると、その予測に寄与した特徴量を確認できます。
以下の例では、ID=1789の予測は、過去90日間の加盟店総与信額に基づき、疑わしい取引の可能性が非常に高い(予測値=91.3%)と判断されています。
ワードクラウド¶
説明 > ワードクラウドをクリックして、テキストフィールドが予測にどの程度影響するかを調べます。 ワードクラウドは、カラースペクトルを使用して、予測に対する単語の影響力を示します。 この例では、赤色の単語はアラートがSARに強く関連付けられていことを示しています。 単語のサイズが大きいほど、データセット内での出現頻度が高いことを示します。
クラウド内の単語をクリックすると、その単語の詳細が表示されます。
精度の評価¶
DataRobotには、モデルのパフォーマンスに関するインサイトを提供するだけでなく、モデルの精度を評価するためのツールも用意されています。 このセクションでは、このユースケースに最も関連するいくつかのツールについて説明します。
リフトチャート¶
パフォーマンス > リフトチャートをクリックすると、モデルがSARアラートと非SARアラートをどの程度効果的に分離しているかを確認できます。 アウトオブサンプルのパーティション内のアラートがモデルによってスコアリングされると、アラートがSARリスクである、またはSARになる可能性を測定するリスクスコアが割り当てられます。 リフトチャートでは、アラートがSARリスクに従って並べ替えられ、10デシルに分類されて、リスクの低い順から高い順に表示されます。
デシルごとに、DataRobotはSARリスクの平均予測値(青色のプラス記号)と実際のSARイベントの平均値(オレンジ色の丸記号)を計算します。 そして、それぞれの点を結んで、予測されるSARリスクと実際のSARリスクを2つの異なる折れ線グラフにします。 チャートが示すように、モデルはSARの可能性が高いアラートに対してわずかに過小予測する傾向がありますが、全体的にモデルのパフォーマンスは良好です。
ROC曲線¶
モデルのパフォーマンスが良好であることがわかったので、DataRobotが予測した連続的なSARリスクに基づいて二者択一の判断を下すために、明示的なしきい値を選択できます。 パフォーマンス > ROC曲線をクリックすると、最適なしきい値の選択時に重要な判断材料となるさまざまな情報にアクセスできます。
ROC曲線の詳細については、ROC曲線を参照してください。
次のステップ¶
SARアラートを分析し予測を行うモデルを構築する基本的なプロセスが完了したので、マネーロンダリング防止(AML)アラートスコアリングガイドでこのユースケースに関する詳細な手順に進むことができます。

















