Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

高度なエクスペリメント設定

トレーニングの前に、より高度なモデリング条件を適用するには、オプションで以下の操作を行うことができます。

データパーティショニングタブ

パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 ワークベンチのデフォルトは、 層化サンプリング(二値分類エクスペリメントの場合)またはランダム(連続値エクスペリメントの場合)による 5分割交差検定、および20%のホールドアウト分割です。

備考

日付特徴量が使用可能な場合、エクスペリメントは日付/時刻パーティションに適格です。日付/時刻パーティションでは、行がランダムではなく時系列でバックテストに割り当てられます。 時間認識プロジェクトで唯一有効な分割手法。 詳細については、時間認識モデリングのドキュメントを参照してください。

分割手法または検定タイプを追加設定から変更するか、サマリーのパーティショニングフィールドをクリックして変更します。

分割手法の設定

分割手法では、モデルのトレーニング時に行を割り当てる方法をDataRobotに指示します。 分割手法と検定タイプの選択は、ターゲット特徴量およびパーティション列に依存します。 つまり、すべての選択が常に使用可能として表示されるわけではないということです。 次の表は、各手法を簡単に説明しています。パーティショニングの詳細については、 このセクションも参照してください。

方法 説明
層化抽出 行は、トレーニングデータ、検定、ホールドアウトセットにランダムに割り当てられ、元のデータと同じ(可能な限り近い)予測ターゲット値の比率が保持されます。 これは、二値分類問題のデフォルトの手法です。
ランダム DataRobotでは、行がトレーニング、検定、ホールドアウトセットにランダムに割り当てられます。 これは、連続値問題のデフォルトの手法です。
ユーザー定義のグループ化 この特徴量の値と検定パーティションの間で1対1のマッピングが作成されます。 それぞれの一意の値には独自のパーティションが割り当てられ、その値を含むすべての行がそのパーティションに配置されます。 この方法は、カーディナリティが低いパーティション特徴量に推奨されます。 以下の、 グループ化によるパーティションを参照してください。
自動グループ化 選択した特徴量に対して同じ単一の値を含むすべての行は同じトレーニングまたはテストセットに含まれることが保証されます。 各パーティションには特徴量の1つ以上の値を含めることができますが、個々の値はDataRobotによって自動的に一緒にグループ化されます。 この方法は、カーディナリティが高いパーティション特徴量に推奨されます。 以下の、 グループ化によるパーティションを参照してください。
日付/時刻 時間認識エクスペリメントを参照してください。

検定タイプの設定

検定タイプは、モデルを検証するためにデータで使用される方法を設定します。 方法を選択し、関連するフィールドを設定します。 設定フィールドの下のグラフィックは、設定を示します。 ユーザー定義または自動化されたグループパーティショニングを使用する場合は、検定タイプの説明を参照してください。

フィールド 説明
交差検定:2つ以上の“分割”にデータを分離し、分割ごとに1つのモデルを作成します。その分割に割り当てられたデータは検定に使用され、それ以外のデータはトレーニングに使用されます。
交差検定の分割数 交差検定手法で使用する分割数を設定します。 数値を大きくすると、各分割で使用可能なトレーニングデータサイズが増加し、合計トレーニング時間が長くなります。
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。
トレーニング-検定-ホールドアウト:データセットが大きい場合、データをトレーニング、検定、ホールドアウトの3つのセクションに分割し、データの1回のパスに基づいて予測します。
検定の割合 トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。

備考

データセットが800 MBを超える場合、すべての分割手法で使用可能な検定タイプはトレーニング-検定-ホールドアウトだけです。

グループ化によるパーティション

あまり一般的ではありませんが、ユーザー定義および自動化されたグループ分割では、グループ化の基礎となるデータセットの特徴量を _パーティション特徴量_で分割する方法が行われます。

  • _ユーザー定義のグループ化_では、選択したパーティション特徴量の一意の値ごとにパーティションが作成されます。 つまり、行は、選択したパーティション特徴量の値を使用してパーティションに割り当てられ、一意の値ごとに1つのパーティションになります。 この方法を選択すると、パーティション特徴量の一意の値が10未満である特徴量を指定することが推奨されます。

  • _自動化されたグループ化_では、パーティション特徴量の同じ単一(指定)値を持つすべての行が同じパーティションに割り当てられます。 各パーティションには、その特徴値が複数含まれることがあります。 この方法を選択すると、DataRobotにより一意の値が6以上である特徴量を指定することが推奨されます。

これらの方法のいずれかを選択すると、パーティション特徴量を入力するように求められます。 ヘルプテキストからは、パーティション特徴量に含める必要のある値の数に関する情報が得られます。ドロップダウンをクリックして、一意の値の数を含む特徴量を表示します。

パーティション特徴量の選択後、検定タイプを設定します。 検定タイプの適用性は、次のチャートに示すように、パーティション特徴量の一意の値に依存します。

自動化されたグループ化では、上記と同じ 検定設定が使用されます。 しかし、ユーザー定義のグループ化では、パーティション特徴量に固有の値の入力が求められます。 _交差検定_の場合、ホールドアウトの設定はオプションです。 設定する場合は、パーセンテージではなくパーティション特徴量の値を選択します。 _トレーニング-検定-ホールドアウト_の場合、ここでもパーセンテージではなく、各セクションのパーティション特徴量の値を選択します。

増分学習の設定

本機能の提供について

Incremental learning for large datasets is on by default, supporting a maximum 10GB chunk size. If the Enable 20GB Scaleup Modeling Optimization feature flag is enabled, the increment size upper limit is 20GB. Administrators: contact your DataRobot representative for information on increasing the increment size limit for your organization.

機能フラグ:

  • 増分学習を有効にする(有効)
  • データのチャンキングサービスを有効にする(有効)
  • 20GBのスケールアップモデリングの最適化を有効にする(無効)

増分学習(IL)は大規模なデータセット(10GB~100GB)に特化したモデルトレーニング方法であり、データをチャンク化してトレーニングのイテレーションを作成します。 モデルの構築が開始されたら、トレーニング済みのイテレーションを比較し、必要に応じて、別のアクティブバージョンを割り当てるか、トレーニングを継続することができます。 アクティブなイテレーションは、他のインサイトのベースとなり、予測に使用されます。

DataRobotは、デフォルト設定を使用して、最も精度の高いモデルをすべてのイテレーションでトレーニングし、その他のすべてのモデルを最初のイテレーションでのみトレーニングします。 モデルが構築されたら、 モデルのイテレーションから追加の増分をトレーニングできます。

ILエクスペリメントのセットアップ

10GBより大きいデータセットの場合、ILは自動的に有効(必須)になります。 設定を開始するには:

  1. ユースケース内から、 静的またはスナップショットが取得されたデータセットを追加します。

  2. データセットが登録された後(IL以外のエクスペリメントよりも大幅に時間がかかる場合があります)、 二値分類または連続値ターゲットを設定すると、ILが有効になり、設定が使用可能になります。

    ヒント

    モデリングを開始する前にエクスペリメント設定タブから移動しないでください。 そうでない場合、DataRobotはデータセットとドラフトの再登録(サイズによっては時間がかかる場合があります)を行います。その結果、不完全な設定が原因で増分学習はサポートされません。

    予想よりも長い遅延がある場合は、 AIカタログで登録ステータスを確認できます。

  3. クイックオートパイロット(デフォルト)または手動のいずれかの モデリングモードを選択します。 包括的モードは、ILでは使用できません。 エクスペリメントのサマリーが更新され、インクリメンタルモデリングが有効になったことが示されます。

  4. 追加設定 > インクリメンタルモデリングタブをクリックします。

  5. プロジェクトの設定を行います。

    設定 説明
    増分サイズ 各イテレーションに割り当てる行数を設定します。 DataRobotは、増分ごとに有効な範囲を提供します。
    すべてのイテレーションで最上位モデルをトレーニング 最高のパフォーマンスのモデルに対するトレーニングを継続するかどうかを設定します。 選択すると、パフォーマンスが最も高いモデルがすべての増分でトレーニングされます。その他のリーダーボードモデルは単一の増分でトレーニングされます。 選択しない場合、すべてのモデルは単一の増分でトレーニングされます。 手動モデリングモードが選択されている場合、この設定は無効になります。
    モデルの精度が上がらなくなったらトレーニングを停止 検定パーティションに基づいて、モデルの精度が頭打ちになったときに新しいモデルイテレーションのトレーニングを停止するかどうかを設定します。 具体的には、精度指標が前の3回のイテレーションに比べて0.000000001%以上改善しない場合、トレーニングは停止します。

    設定の右側にあるグラフィックは、DataRobotがエクスペリメントデータを分割した増分の数とサイズを示します。 増分の数が変更されると、グラフィックが変化します。

    ILパーティショニング

    ILパーティショニングについては、以下の点に注意してください。

    • エクスペリメントのパーティショニング設定は最初のイテレーションに適用されます。 後続の各イテレーションからのデータがモデルのトレーニングパーティションに追加されます。
    • 最初のイテレーションはすべてのパーティション(トレーニング、検定、ホールドアウト)に使用されるので、トレーニングデータのみを保持する後続のイテレーションよりも小さくなります。
  6. モデリングを開始をクリックします。

  7. 最初のイテレーションが完了すると、 モデルのイテレーションのインサイトがリーダーボードで使用可能になります。

ILに関する注意事項

データセットが10GBよりも大きい場合、増分学習が自動的にアクティブになります。 ILを操作する場合は、次の点に注意してください。

  • IL is available for non-time aware binary classification, multiclass classification, and regression experiments.
    • With multiclass data, any new classes not found in the initial chunk will be excluded from the training process. The model will exclusively train on classes present in the initial chunk.
    • In multiclass experiments with new data chunks, there must be a minimum of two classes from the initial chunk (the data from which the project was started).
  • You cannot restart a draft of an IL experiment from a Use Case. 新しいエクスペリメントを作成する必要があります。
  • デフォルトの増分サイズは4GBです。 It can be increased to 10GB, or, with the Enable 20GB Scaleup Modeling Optimization feature flag enabled, 20GB.
  • データセットは、AIカタログに登録された静的またはスナップショットである必要があります。 ローカルコンピューターから直接アップロードすることはできません。
  • データセットは10GBから100GBの間に収まる必要があります。
  • ILは、ユーザー定義のグループ化、自動グループ化、または日付/時刻の分割手法をサポートしていません。
  • 包括的なモデリングモードは、ILエクスペリメントでは無効になっています。
  • 交差検定は使用できません。
  • 単調特徴量の制約、加重の割り当て、および保険固有の設定はサポートされていません。
  • 共有はユースケースレベルでのみ可能です。エクスペリメントレベルの共有はサポートされていません。 共有する場合、エクスペリメント作成者以外のユーザーが使用できる唯一のオプションは「アクティブなイテレーションの変更」です。 プロジェクトの共有先のユーザーが新しいイテレーションをトレーニングすると、すべてのイテレーションがエラーになります。
  • 10GBを超えるデータセットをモデル化するには、組織のAIカタログファイルのサイズ制限を増やす必要があります。 システム管理者に連絡してください。
  • 特徴量探索は、AWSマルチテナントSaaSでのみ使用できます。 プライマリーデータセットは最大20GBに制限されています。セカンダリーデータセットは最大100GBです。
  • 次のブループリントファミリーを使用できます。
    • GBM (Gradient Boosting Machine), such as Light Gradient Boosting, eXtreme Gradient Boosted Trees Classifier.
    • SGD (linear models), such as Stochastic Gradient Descent.
    • NN (Neural Network), such as Keras.
  • デフォルトでは、特徴量ごとの作用により、上位500の特徴量(特徴量のインパクトでランク付け)のインサイトが生成されます。 実行時のパフォーマンスを考慮して、特徴量ごとの作用では、ILエクスペリメントの上位100の特徴量のインサイトが生成されます。

追加設定を行う

より高度なモデリング機能を設定するには、追加設定タブを選択します。 時系列モデリングタブについては、データセットで日付/時刻特徴量が見つかったかどうかに応じて、使用可能になるかグレーアウトされます。

ビジネスユースケースに応じて、以下を設定します。

単調特徴量制約

単調制約は、特徴量とターゲットの間の上下方向の影響を制御します。 一部のプロジェクト(保険業や銀行業など)では、特徴量とターゲットの間の方向関係性を強制することが望ましい場合があります(評価価値の高い家屋の火災保険料が常に高くなるなど)。 単調制約でのトレーニングを行うことによって、特定のXGBoostモデルに特定の特徴量とターゲットの間の単調(常に増加または常に減少)関係性を学習させます。

単調制約特徴量を使用するには、 特殊な特徴量セットを作成する必要があります。この特徴量セットは、ここで選択されます。 また、手動モードを使用する場合、使用可能なブループリントにはMONOバッジが付けられ、サポートされるモデルを識別できます。

ウェイト

ウェイト違いを表す重みとして使用し、各行の相対的な有用性を示す単一の特徴量を設定します。 これは、モデルの構築やスコアリングの際に、リーダーボードで指標を計算する目的で使用されます。新しいデータで予測を行う目的では使用されません。 選択した特徴量のすべての値が0より大きい値である必要があります。DataRobotでは検定が行われ、選択した特徴量にはサポートされている値のみが含まれているかどうかが確認されます。

保険特有の設定

保険業界の頻繁な加重ニーズに対処するいくつかの機能を利用できます。 次の表では各モデルについて簡単に説明しますが、詳細については、 ここを参照してください。

設定 説明
エクスポージャー 連続値問題のターゲット予測において厳密な比例関係で処理される特徴量を設定し、保険料率をモデリングする際にエクスポージャーの指標を追加します。 DataRobotでは、エクスポージャーで選択された特徴量は特殊な列として扱われ、モデルの構築やスコアリングの際に元の予測に追加されます。選択した列は、予測のために後でアップロードするすべてのデータセットに存在する必要があります。
イベント数 ゼロ以外のイベントの頻度に関する情報を追加することで、ゼロ過剰ターゲットのモデリングを改善します。
オフセット 各サンプルでモデルの切片(線形モデル)またはマージン(ツリーベースモデル)を調整するもので、複数の特徴量を受け付けます。

設定を変更します。

ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。

次のアクション

Once all settings are applied, start modeling. モデリングを開始すると、DataRobotでリーダーボードにモデルが入力されます。 以下を実行することが可能です。


更新しました July 16, 2024