高度なエクスペリメント設定¶
トレーニングの前に、より高度なモデリング条件を適用するには、オプションで以下の操作を行うことができます。
データパーティショニングタブ¶
パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 Workbench defaults to five-fold cross-validation with stratified sampling (for binary classification experiments) or random (for regression experiments) and a 20% holdout fold.
備考
日付特徴量が使用可能な場合、エクスペリメントは日付/時刻パーティションに適格です。日付/時刻パーティションでは、行がランダムではなく時系列でバックテストに割り当てられます。 時間認識プロジェクトで唯一有効な分割手法。 See the time-aware modeling documentation for more information.
分割手法または検定タイプを追加設定から変更するか、サマリーのパーティショニングフィールドをクリックして変更します。
分割手法の設定¶
分割手法では、モデルのトレーニング時に行を割り当てる方法をDataRobotに指示します。 分割手法と検定タイプの選択は、ターゲット特徴量およびパーティション列に依存します。 つまり、すべての選択が常に使用可能として表示されるわけではないということです。 The following table briefly describes each method; see also this section for more partitioning details.
方法 | 説明 |
---|---|
層化抽出 | |
ランダム | |
ユーザー定義のグループ化 | |
自動グループ化 | |
日付/時刻 | See time-aware experiments. |
検定タイプの設定¶
検定タイプは、モデルを検証するためにデータで使用される方法を設定します。 方法を選択し、関連するフィールドを設定します。 設定フィールドの下のグラフィックは、設定を示します。 See the description of validation type when using user-defined or automated group partitioning.
フィールド | 説明 |
---|---|
交差検定:2つ以上の“分割”にデータを分離し、分割ごとに1つのモデルを作成します。その分割に割り当てられたデータは検定に使用され、それ以外のデータはトレーニングに使用されます。 | |
交差検定の分割数 | |
ホールドアウトの割合(%) | |
Training-validation-holdout: For larger datasets, partitions data into three distinct sections—training, validation, and holdout— with predictions based on a single pass over the data. | |
検定の割合 | トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 |
ホールドアウトの割合(%) |
備考
データセットが800 MBを超える場合、すべての分割手法で使用可能な検定タイプはトレーニング-検定-ホールドアウトだけです。
グループ化によるパーティション¶
あまり一般的ではありませんが、ユーザー定義および自動化されたグループ分割では、グループ化の基礎となるデータセットの特徴量を _パーティション特徴量_で分割する方法が行われます。
-
_ユーザー定義のグループ化_では、選択したパーティション特徴量の一意の値ごとにパーティションが作成されます。 つまり、行は、選択したパーティション特徴量の値を使用してパーティションに割り当てられ、一意の値ごとに1つのパーティションになります。 この方法を選択すると、パーティション特徴量の一意の値が10未満である特徴量を指定することが推奨されます。
-
_自動化されたグループ化_では、パーティション特徴量の同じ単一(指定)値を持つすべての行が同じパーティションに割り当てられます。 各パーティションには、その特徴値が複数含まれることがあります。 この方法を選択すると、DataRobotにより一意の値が6以上である特徴量を指定することが推奨されます。
これらの方法のいずれかを選択すると、パーティション特徴量を入力するように求められます。 ヘルプテキストからは、パーティション特徴量に含める必要のある値の数に関する情報が得られます。ドロップダウンをクリックして、一意の値の数を含む特徴量を表示します。
パーティション特徴量の選択後、検定タイプを設定します。 検定タイプの適用性は、次のチャートに示すように、パーティション特徴量の一意の値に依存します。
自動化されたグループ化では、上記と同じ 検定設定が使用されます。 しかし、ユーザー定義のグループ化では、パーティション特徴量に固有の値の入力が求められます。 _交差検定_の場合、ホールドアウトの設定はオプションです。 設定する場合は、パーセンテージではなくパーティション特徴量の値を選択します。 _トレーニング-検定-ホールドアウト_の場合、ここでもパーセンテージではなく、各セクションのパーティション特徴量の値を選択します。
増分学習の設定¶
プレビュー
大規模データセット向けの増分学習はプレビュー機能ですが、デフォルトでオンになっており、静的データセットに対して最大10GBのチャンクサイズをサポートしています。 適切なフラグを有効にすることで、動的データセットのサポートも利用できます。 管理者様:組織内での増分サイズの上限引き上げについては、DataRobotの担当者にお問い合わせください。
機能フラグ:
- 増分学習を有効にする(有効)
- データのチャンキングサービスを有効にする(有効)
- ワークベンチで動的データセットを有効にする(有効)
増分学習(IL)は大規模なデータセット(10GB〜100GB)に特化したモデルトレーニング方法であり、データをチャンク化してトレーニングのイテレーションを作成します。 モデルの構築が開始されたら、トレーニング済みのイテレーションを比較し、必要に応じて、別のアクティブバージョンを割り当てるか、トレーニングを継続することができます。 アクティブなイテレーションは、他のインサイトのベースとなり、予測に使用されます。
DataRobotは、デフォルト設定を使用して、最も精度の高いモデルをすべてのイテレーションでトレーニングし、その他のすべてのモデルを最初のイテレーションでのみトレーニングします。 From the Model Iterations insight you can train additional increments once models have been built. 静的データセットと動的データセットの両方に増分学習エクスペリメントを作成できます。
ILエクスペリメントのセットアップ¶
10GBより大きいデータセットの場合、ILは自動的に有効(必須)になります。 設定を開始するには:
-
ユースケース内から、 静的、スナップショット、または10GBを超える 動的データセットを追加して、データセットが登録されるのを待ちます。 これは、非増分学習(IL)エクスペリメントよりも大幅に長い時間がかかる場合があります。 You can check the registration status in the AI Catalog:
-
静的データセットを使用する場合は、ステップ3に進みます。動的データセットを使用する場合は、データセットが登録されたら、最大5つの順序付け特徴量を入力します。 これらの特徴量は、(バックグラウンドで)チャンク定義を作成し、データセットを並べ替えて決定論的なサンプルを作成するために使用されます。 複数の特徴量を入力すると、DataRobotは入力された順に時系列でそれらの特徴量を並べます。 DataRobotが最初のチャンクを作成した後、ターゲット選択が可能になり、通常の増分学習のフローが続きます。
-
静的データと動的データの両方について、 二値分類または連続値ターゲットを設定して、ILを有効にし、設定にアクセスします。
ヒント
モデリングを開始する前にエクスペリメント設定タブから移動しないでください。 そうでない場合、DataRobotはデータセットとドラフトの再登録(サイズによっては時間がかかる場合があります)を行います。その結果、不完全な設定が原因で増分学習はサポートされません。
-
クイックオートパイロット(デフォルト)または手動のいずれかの モデリングモードを選択します。 包括的モードは、ILでは使用できません。 エクスペリメントのサマリーが更新され、インクリメンタルモデリングが有効になったことが示されます。
-
追加設定 > インクリメンタルモデリングタブをクリックします。
-
プロジェクトの設定を行います。
設定 説明 増分サイズ すべてのイテレーションで最上位モデルをトレーニング モデルの精度が上がらなくなったらトレーニングを停止 設定の右側にあるグラフィックは、DataRobotがエクスペリメントデータを分割した増分の数とサイズを示します。 増分の数が変更されると、グラフィックが変化します。
ILパーティショニング
ILパーティショニングについては、以下の点に注意してください。
- エクスペリメントのパーティショニング設定は最初のイテレーションに適用されます。 後続の各イテレーションからのデータがモデルのトレーニングパーティションに追加されます。
- 最初のイテレーションはすべてのパーティション(トレーニング、検定、ホールドアウト)に使用されるので、トレーニングデータのみを保持する後続のイテレーションよりも小さくなります。
-
モデリングを開始をクリックします。
-
最初のイテレーションが完了すると、 モデルのイテレーションのインサイトがリーダーボードで使用可能になります。
ILに関する注意事項¶
データセットが10GBよりも大きい場合、増分学習が自動的にアクティブになります。 ILを操作する場合は、次の点に注意してください。
- ILは時間を認識しない二値分類、多クラス分類、および連続値エクスペリメントにおいて可能です。
- 多クラスデータでは、最初のチャンクにない新しいクラスはトレーニングプロセスから除外されます。 モデルは、最初のチャンクに存在するクラスでのみトレーニングされます。
- 新しいデータチャンクを使った多クラスエクスペリメントでは、最初のチャンク(プロジェクトの開始元のデータ) から少なくとも2つのクラスが必要です。
- ユースケースからILエクスペリメントのドラフトを再開することはできません。 新しいエクスペリメントを作成する必要があります。
- デフォルトの増分サイズは4GBです。 10GBに引き上げることができます。
- データセットは、AIカタログに登録された静的またはスナップショットである必要があります。 ローカルコンピューターから直接アップロードすることはできません。
- データセットは10GBから100GBの間に収まる必要があります。
- ILは、ユーザー定義のグループ化、自動グループ化、または日付/時刻の分割手法をサポートしていません。
- 包括的なモデリングモードは、ILエクスペリメントでは無効になっています。
- 交差検定は使用できません。
- 単調特徴量の制約、加重の割り当て、および保険固有の設定はサポートされていません。
- 共有はユースケースレベルでのみ可能です。エクスペリメントレベルの共有はサポートされていません。 共有する場合、エクスペリメント作成者以外のユーザーが使用できる唯一のオプションは「アクティブなイテレーションの変更」です。 プロジェクトの共有先のユーザーが新しいイテレーションをトレーニングすると、すべてのイテレーションがエラーになります。
- 10GBを超えるデータセットをモデル化するには、組織のAIカタログファイルのサイズ制限を増やす必要があります。 システム管理者に連絡してください。
- 特徴量探索は、AWSマルチテナントSaaSでのみ使用できます。 プライマリーデータセットは最大20GBに制限されています。セカンダリーデータセットは最大100GBです。
- 次のブループリントファミリーを使用できます。
- Light Gradient Boosting、eXtreme Gradient Boosted Trees ClassifierなどのGBM (Gradient Boosting Machine)
- 確率的勾配降下法などのSGD(線形モデル
- KerasなどのNN(ニューラルネットワーク
- デフォルトでは、特徴量ごとの作用により、上位500の特徴量(特徴量のインパクトでランク付け)のインサイトが生成されます。 実行時のパフォーマンスを考慮して、特徴量ごとの作用では、ILエクスペリメントの上位100の特徴量のインサイトが生成されます。
追加設定を行う¶
より高度なモデリング機能を設定するには、追加設定タブを選択します。 時系列モデリングタブについては、データセットで日付/時刻特徴量が見つかったかどうかに応じて、使用可能になるかグレーアウトされます。
ビジネスユースケースに応じて、以下を設定します。
設定 | 説明 |
---|---|
単調特徴量制約 | 特徴量とターゲットの間で影響の増減を制御します。 |
ウェイト | 違いを表す重みとして使用する単一の特徴量を設定します。 |
保険特有の設定 | 保険業界特有の加重ニーズを設定します。 |
地理空間のインサイト | 空間的に明確なモデリングタスクにより強化されたモデルブループリントを構築します。 |
Image augmentation | サポートされている画像タイプを、モデリングデータセット内の他の特徴量型に組み込みます。 |
単調特徴量制約¶
単調制約は、特徴量とターゲットの間の上下方向の影響を制御します。 一部のプロジェクト(保険業や銀行業など)では、特徴量とターゲットの間の方向関係性を強制することが望ましい場合があります(評価価値の高い家屋の火災保険料が常に高くなるなど)。 単調制約でのトレーニングを行うことによって、特定のXGBoostモデルに特定の特徴量とターゲットの間の単調(常に増加または常に減少)関係性を学習させます。
単調制約特徴量を使用するには、 特殊な特徴量セットを作成する必要があります。この特徴量セットは、ここで選択されます。 また、手動モードを使用する場合、使用可能なブループリントにはMONOバッジが付けられ、サポートされるモデルを識別できます。
ウェイト¶
ウェイト違いを表す重みとして使用し、各行の相対的な有用性を示す単一の特徴量を設定します。 これは、モデルの構築やスコアリングの際に、リーダーボードで指標を計算する目的で使用されます。新しいデータで予測を行う目的では使用されません。 選択した特徴量のすべての値が0より大きい値である必要があります。DataRobotでは検定が行われ、選択した特徴量にはサポートされている値のみが含まれているかどうかが確認されます。
保険特有の設定¶
保険業界の頻繁な加重ニーズに対処するいくつかの機能を利用できます。 The table below describes each briefly, but more detailed information can be found here.
設定 | 説明 |
---|---|
エクスポージャー | |
イベント数 | ゼロ以外のイベントの頻度に関する情報を追加することで、ゼロ過剰ターゲットのモデリングを改善します。 |
オフセット | 各サンプルでモデルの切片(線形モデル)またはマージン(ツリーベースモデル)を調整するもので、複数の特徴量を受け付けます。 |
地理空間の設定¶
地理空間モデリングは、データの地理空間パターンのインサイトを得るのに役立ちます。 一般的な地理空間形式をネイティブに取込み、空間的に明示的なモデリングタスクを使用して、強化されたモデルブループリントを構築できます。 Interactive maps post-modeling, such as Accuracy Over Space and Anomaly Over Space, help highlight errors and anomalies in your data.
DataRobotは、次のネイティブの地理空間データ形式の取込みをサポートしています。
- ESRIシェープファイル
- GeoJSON
- ESRIファイルジオデータベース
- Well Known Text(テーブルの列に埋め込み)
- PostGISデータベース
地理空間モデリングを設定するには、設定を表示をクリックし、ドロップダウンから位置特徴量を選択します。
備考
地理空間インサイトにアクセスするには、 モデリング特徴量セットに選択した位置特徴量を含める必要があります。
ワークベンチの地理空間モデリングは、探索的空間データ解析(ESDA)のインサイトを除いて、DataRobot ClassicのLocation AIと同じ機能を提供します。 See the Location AI documentation for a full description of geo-aware modeling.
Image augmentation¶
備考
Visual Artificial Intelligence (AI)の画像オーグメンテーションは、時系列エクスペリメントではサポートされていませんが、時間認識予測エクスペリメントでは利用可能です。 機能に関するその他の注意事項については、以下をご覧ください。
画像オーグメンテーションは、DataRobot Visual Artificial Intelligence (AI)機能の一部です。 既存の画像をランダムに変換して新しい画像を作成する処理手順をブループリントに追加することで、トレーニングデータのサイズを増やす(「オーグメンテーションする」)ことができます。
オーグメンテーションを使用する理由
画像の変換とデータセットの拡張には、主に2つの理由があります。
-
元のデータに合理的に含まれていたように見える新しい画像を作成する。 通常、変換の適用は、より多くのデータを収集してラベルを付けるよりもコストがかからないため、元の画像とほぼ同じくらいの画像でトレーニングセットのサイズを増やすための優れた方法です。
-
画像から一部の情報を意図的に削除し、画像のさまざまな側面に焦点を合わせるようにモデルをガイドして、それによって画像のより堅牢な表現を学習する。 これは、ぼかしと切り抜きのセクションの例で説明します。
重要
アップロードする前にデータセットを正しく準備してください。
画像変換による画像オーグメンテーションを開始するには、新しい画像を生成をオンに切り替えます。 有効にすると、変換設定に基づいて、元のトレーニング画像すべてのコピーが作成されます。 If you do not toggle augmentation on, the insights are still available based on the DataRobot settings.
値を設定した後、新しい画像のサンプルをプレビューして値を微調整できます。 プレビューでは、データセットのすべての画像が、すべての可能な変換を伴って表示されるわけではありません。 代わりに、トレーニングに使用されたデータに表示される変換の例とともに、元の画像が表示されます。
次に、部数と変換オプションを以下の説明に従って設定します。
Visual Artificial Intelligence (AI)と画像オーグメンテーションの詳細については、以下のセクションを参照してください。
元の画像ごとの新規画像¶
元の画像ごとの新しい画像には、DataRobotが作成する元の画像のバージョン数を指定します。 基本的に、オーグメンテーション後にデータセットを拡張する大きさを設定します。 たとえば、元のデータセットに1000の行があり、「新しい画像」の値が3の場合、モデルをトレーニングすると4000行になります(元の1000行および変換された画像を含む3000の新しい行)。
元の画像ごとの新しい画像の最大許容値は動的です。 つまり、DataRobotが元の行の数に基づく値を決定し、メモリー制限を超えずにモデルを構築するために安全に使用できるようにします。 簡単に言えば、1つのプロジェクトでは、(現在の特徴量セットに関係なく)最大値は300,000 / (number_of_rows * feature_columns)
か1の、どちらか大きい方になります。
新しい画像を作成すると、データセットに行が追加されます。 新しい画像を含む列を除いたすべての特徴量列が、元の行の重複値です。
Shift(シフト)¶
以下の場合に役立ちます:検出対象のオブジェクトが中央に配置されていない。
適用するオフセットを指定します。 オフセット値は、画像が上下左右に移動する最大量です。 0.5の値は、画像を画像の幅の半分まで左または右に、または画像の高さの半分まで上下にシフトできることを意味します。 The actual amount shifted for each image is random, and Shift is only applied to each image with probability equal to the transformation probability. 画像は反射パディングで埋められます。 この変換は通常、上記の目的を果たし、撮影者が一歩前進したか後退したか、またはカメラを上げ下げしたかをシミュレートします。
スケール¶
以下の場合に役立ちます:
- 検出対象のオブジェクトがカメラから一定の距離ではない。
- 検出対象のオブジェクトのサイズが一定ではない。
選択したら、画像を拡大または縮小する最大量を設定します。 The actual amount scaled for each image is random—Scale is only applied to each image with probability equal to the transformation probability. スケールアウトすると、画像は反射パディングで埋められます。 この変換は通常、1番目の目的を満たし、撮影者が一歩前進したか後退したかをシミュレートします。
回転¶
以下の場合に役立ちます:
- 検出対象のオブジェクトの向きはさまざまです。
- 検出対象のオブジェクトに放射状の対称性がある。
設定されている場合は、Maximum Degrees(最大度)パラメーターを使用して、画像が時計回りまたは反時計回りに回転する最大度を設定します。 The actual amount rotated for each image is random, and Rotate is only applied to each image with probability equal to the transformation probability. 回転は、キャプチャしたオブジェクトが回転していた場合、または写真家がカメラを傾けていた場合に最適なシミュレーションになります。
ぼかし¶
以下の場合に役立ちます:
- 画像にはさまざまな不明瞭性があります。
- モデルは、精度の高い予測を行うために、大規模な特徴量を認識することを学習する必要があります。
ぼかしを使用する理由
画像にさまざまなぼかしがある場合、ぼかしを追加すると、焦点のレベルがさまざまな新しい画像をシミュレートできます。 2番目の目的は、ぼかしを追加することによって特定の小さなピクセルグループではなく、画像内のより大規模な形状や色に焦点を合わせるようにモデルをガイドします。 たとえば、モデルが全体の形状を考慮するのではなく、毛皮の1つの部分だけで猫を識別することを学習しているのではないかと懸念される場合、ぼかしを追加すると、モデルが小規模な特徴量と大規模な特徴量の両方に焦点を合わせるのに役立ちます。 ただし、製造上の小さな欠陥を認識するようにモデルをトレーニングしていいて、ぼかしを適用すると、トレーニングに役立つ貴重な情報が排除されるだけの場合があります。
画像を滑らかにするために適用するGaussianフィルターの最大サイズを設定するフィルターサイズを指定します。 たとえば、フィルターサイズが3の場合、新しい画像の各ピクセルの値は、元のピクセルを囲む3x3の正方形の集合体になります。 フィルターサイズを大きくすると、画像がぼやけます。 The actual filter size for each image is random, and is only applied to each image with probability equal to the transformation probability.
切り抜き¶
以下の場合に役立ちます:
- 検出対象のオブジェクトが、他のオブジェクトによって部分的に遮られていることがある。
- 画像内の複数の特徴量に基づいて予測を行う方法をモデルが学習する必要がある。
切り抜きを使用する理由
検出対象のオブジェクトが他のオブジェクトによって部分的に隠されていることが多い場合、切り抜きを追加することで、オブジェクトが新しい方法で部分的に隠されたままの新しい画像をシミュレートできます。 2番目の目的に関して、切り抜きを追加すると、予測を行うためにオブジェクトの同じ部分を常に見るとは限らないようにモデルをガイドします。
たとえば、モデルをトレーニングして、さまざまな車種を区別できます。 モデルは、ボンネットの形状が80%の精度に達するのに十分であることを学習する可能性があるため、ボンネットからの信号がトレーニングの他の情報を上回る可能性があります。 切り抜きを適用することにより、モデルは常にボンネットを見ることができるとは限らなくなるので、車の他の部分を使用して予測を行うことを学習する必要があります。 これで画像内のさまざまな特徴量を使用して予測を行う方法が学習されるので、モデル全体の精度がより高くなる可能性があります。
選択したら、さらに変換を設定します。
- ホールを追加を使って、画像の上にランダムに貼り付けられる黒い長方形の数を設定します。
- 長方形のサイズを示す最大の高さと幅をピクセル単位で設定します。ただし、各長方形の値はランダムであり、変換確率と等しい確率で各画像にのみ適用されます。
反転¶
以下の場合に役立ちます:
- 検出対象のオブジェクトは垂直線を中心に左右対称です。
- カメラが地面に対して平行。
- 検出しようとしているオブジェクトは、左からも右からも来た可能性があります。
- 検出対象のオブジェクトは水平線を中心に上下対称です。
- カメラが地面に対して垂直(たとえば、地面、テーブル、またはコンベヤーベルトの下から、または空の上からの撮影)。
- 画像は重力の影響をほとんど受けない微細な物体。
反転は通常、対象物が垂直方向に反転された場合、または俯瞰画像が反対方向からキャプチャされた場合をシミュレートする目的で使用されます。 The transformation has no parameters—new images will be flipped with probability of 50% (ignoring the value of the transformation probability).
変換の確率¶
作成される新しい画像ごとに、有効な各変換がこのパラメーターの値と等しい確率で適用されます。 デフォルトでは、変換の確率は75%です。
たとえば、回転とシフトを有効にし、個々の変換の確率を0.8に設定した場合、新しい画像の最大80%で少なくとも回転が行われ、最大80%で少なくとも移動が行われます。 各変換の確率はそれぞれ異なり、新しい画像は、どちらの変換も受けない可能性もあれば、片方の変換を受ける可能性もあれば、両方の変換を受ける可能性もあります。そのため、新しい画像は以下のように分布します。
シフトなし | Shift(シフト) | |
---|---|---|
回転なし | 4% | 16% |
回転 | 16% | 64% |
変換確率の概念イメージ
この値を100に設定すると、選択したすべての変換がすべての画像に適用されます。
オーグメンテーションを使用したモデリング¶
モデリングが完了したら、エクスペリメントを開き、セットアップをクリックしてモデリング設定を確認します。
詳細を表示をクリックすると、適用された変換の概要が表示されます。
使用可能なインサイト¶
左側のモデルリーダーボードタイルをクリックし、モデルを選択すると、該当する画像固有のインサイトが表示されます。
インサイト | 説明 |
---|---|
アテンションマップ | モデルの予測に対する有用性に応じて、画像の各領域が強調表示されます。 |
画像埋め込み | 画像の投影を2次元で表示し、画像のサブセット間の視覚的な類似性を確認して、外れ値を特定できます。 |
ニューラルネットワーク視覚化ツール | モデルのニューラルネットワークの各レイヤーについて視覚的な詳細を示します。 |
オーグメンテーション機能に関する注意事項¶
-
予測の説明の場合、予測データセットあたりの画像数は10,000に制限されます。 DataRobotは予測データセットに対してEDAを実行しないため、画像の数は
number of rows
xnumber of image columns
として推定されます。 その結果、欠損値は画像の制限にカウントされます。 -
画像の説明、画像の予測の説明は、デプロイからは利用できません(たとえば、バッチ予測または予測API)。
-
画像特徴量のドリフト追跡はありません。
-
スコアリングコードのエクスポートはサポートされていませんが、ポータブル予測サーバーは使用できます。
-
オブジェクト検出は使用できません。
-
画像オーグメンテーションは時系列をサポートしていません。 Time-aware predictive experiments are supported.
設定を変更します。¶
ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。