Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

高度なエクスペリメント設定

トレーニングの前に、より高度なモデリング条件を適用するには、オプションで以下の操作を行うことができます。

データパーティショニングタブ

パーティショニングは、評価とモデル構築のためにDataRobotが観測値(または行)をまとめて「集中させる」方法を示します。 ワークベンチのデフォルトは、 層化サンプリング(二値分類エクスペリメントの場合)またはランダム(連続値エクスペリメントの場合)による 5分割交差検定、および20%のホールドアウト分割です。

備考

日付特徴量が使用可能な場合、エクスペリメントは日付/時刻パーティションに適格です。日付/時刻パーティションでは、行がランダムではなく時系列でバックテストに割り当てられます。 時間認識プロジェクトで唯一有効な分割手法。 詳細については、時間認識モデリングのドキュメントを参照してください。

分割手法または検定タイプを追加設定から変更するか、サマリーのパーティショニングフィールドをクリックして変更します。

分割手法の設定

分割手法では、モデルのトレーニング時に行を割り当てる方法をDataRobotに指示します。 分割手法と検定タイプの選択は、ターゲット特徴量およびパーティション列に依存します。 つまり、すべての選択が常に使用可能として表示されるわけではないということです。 次の表は、各手法を簡単に説明しています。パーティショニングの詳細については、 このセクションも参照してください。

方法 説明
層化抽出 行は、トレーニングデータ、検定、ホールドアウトセットにランダムに割り当てられ、元のデータと同じ(可能な限り近い)予測ターゲット値の比率が保持されます。 これは、二値分類問題のデフォルトの手法です。
ランダム DataRobotでは、行がトレーニング、検定、ホールドアウトセットにランダムに割り当てられます。 これは、連続値問題のデフォルトの手法です。
ユーザー定義のグループ化 この特徴量の値と検定パーティションの間で1対1のマッピングが作成されます。 それぞれの一意の値には独自のパーティションが割り当てられ、その値を含むすべての行がそのパーティションに配置されます。 この方法は、カーディナリティが低いパーティション特徴量に推奨されます。 以下の、 グループ化によるパーティションを参照してください。
自動グループ化 選択した特徴量に対して同じ単一の値を含むすべての行は同じトレーニングまたはテストセットに含まれることが保証されます。 各パーティションには特徴量の1つ以上の値を含めることができますが、個々の値はDataRobotによって自動的に一緒にグループ化されます。 この方法は、カーディナリティが高いパーティション特徴量に推奨されます。 以下の、 グループ化によるパーティションを参照してください。
日付/時刻 時間認識エクスペリメントを参照してください。

検定タイプの設定

検定タイプは、モデルを検証するためにデータで使用される方法を設定します。 方法を選択し、関連するフィールドを設定します。 設定フィールドの下のグラフィックは、設定を示します。 ユーザー定義または自動化されたグループパーティショニングを使用する場合は、検定タイプの説明を参照してください。

フィールド 説明
交差検定:2つ以上の“分割”にデータを分離し、分割ごとに1つのモデルを作成します。その分割に割り当てられたデータは検定に使用され、それ以外のデータはトレーニングに使用されます。
交差検定の分割数 交差検定手法で使用する分割数を設定します。 数値を大きくすると、各分割で使用可能なトレーニングデータサイズが増加し、合計トレーニング時間が長くなります。
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。
トレーニング-検定-ホールドアウト:データセットが大きい場合、データをトレーニング、検定、ホールドアウトの3つのセクションに分割し、データの1回のパスに基づいて予測します。
検定の割合 トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。
ホールドアウトの割合(%) トレーニング時にワークベンチが「非表示」にするデータの割合を設定します。 リーダーボードは、ホールドアウト値を表示します。これは、ホールドアウトパーティションに対してトレーニング済みモデルの予測を使用して計算されます。

備考

データセットが800 MBを超える場合、すべての分割手法で使用可能な検定タイプはトレーニング-検定-ホールドアウトだけです。

グループ化によるパーティション

あまり一般的ではありませんが、ユーザー定義および自動化されたグループ分割では、グループ化の基礎となるデータセットの特徴量を _パーティション特徴量_で分割する方法が行われます。

  • _ユーザー定義のグループ化_では、選択したパーティション特徴量の一意の値ごとにパーティションが作成されます。 つまり、行は、選択したパーティション特徴量の値を使用してパーティションに割り当てられ、一意の値ごとに1つのパーティションになります。 この方法を選択すると、パーティション特徴量の一意の値が10未満である特徴量を指定することが推奨されます。

  • _自動化されたグループ化_では、パーティション特徴量の同じ単一(指定)値を持つすべての行が同じパーティションに割り当てられます。 各パーティションには、その特徴値が複数含まれることがあります。 この方法を選択すると、DataRobotにより一意の値が6以上である特徴量を指定することが推奨されます。

これらの方法のいずれかを選択すると、パーティション特徴量を入力するように求められます。 ヘルプテキストからは、パーティション特徴量に含める必要のある値の数に関する情報が得られます。ドロップダウンをクリックして、一意の値の数を含む特徴量を表示します。

パーティション特徴量の選択後、検定タイプを設定します。 検定タイプの適用性は、次のチャートに示すように、パーティション特徴量の一意の値に依存します。

自動化されたグループ化では、上記と同じ 検定設定が使用されます。 しかし、ユーザー定義のグループ化では、パーティション特徴量に固有の値の入力が求められます。 _交差検定_の場合、ホールドアウトの設定はオプションです。 設定する場合は、パーセンテージではなくパーティション特徴量の値を選択します。 _トレーニング-検定-ホールドアウト_の場合、ここでもパーセンテージではなく、各セクションのパーティション特徴量の値を選択します。

増分学習の設定

プレビュー

大規模データセット向けの増分学習はプレビュー機能ですが、デフォルトでオンになっており、静的データセットに対して最大10GBのチャンクサイズをサポートしています。 適切なフラグを有効にすることで、動的データセットのサポートも利用できます。 機能フラグ20GBのスケールアップモデリングの最適化を有効にするが有効な場合、増分サイズの上限は 20GBです。 管理者様:組織内での増分サイズの上限引き上げについては、DataRobotの担当者にお問い合わせください。

機能フラグ:

  • 増分学習を有効にする(有効)
  • データのチャンキングサービスを有効にする(有効)
  • ワークベンチで動的データセットを有効にする(有効)
  • 20GBのスケールアップモデリングの最適化を有効にする(無効)

増分学習(IL)は大規模なデータセット(10GB〜100GB)に特化したモデルトレーニング方法であり、データをチャンク化してトレーニングのイテレーションを作成します。 モデルの構築が開始されたら、トレーニング済みのイテレーションを比較し、必要に応じて、別のアクティブバージョンを割り当てるか、トレーニングを継続することができます。 アクティブなイテレーションは、他のインサイトのベースとなり、予測に使用されます。

DataRobotは、デフォルト設定を使用して、最も精度の高いモデルをすべてのイテレーションでトレーニングし、その他のすべてのモデルを最初のイテレーションでのみトレーニングします。 モデルが構築されたら、 モデルのイテレーションから追加の増分をトレーニングできます。 静的データセットと動的データセットの両方に増分学習エクスペリメントを作成できます。

ILエクスペリメントのセットアップ

10GBより大きいデータセットの場合、ILは自動的に有効(必須)になります。 設定を開始するには:

  1. ユースケース内から、 静的、スナップショット、または10GBを超える 動的データセットを追加して、データセットが登録されるのを待ちます。 これは、非増分学習(IL)エクスペリメントよりも大幅に長い時間がかかる場合があります。 登録状況は AIカタログで確認できます。

  2. 静的データセットを使用する場合は、ステップ3に進みます。動的データセットを使用する場合は、データセットが登録されたら、最大5つの順序付け特徴量を入力します。 これらの特徴量は、(バックグラウンドで)チャンク定義を作成し、データセットを並べ替えて決定論的なサンプルを作成するために使用されます。 複数の特徴量を入力すると、DataRobotは入力された順に時系列でそれらの特徴量を並べます。 DataRobotが最初のチャンクを作成した後、ターゲット選択が可能になり、通常の増分学習のフローが続きます。

  3. 静的データと動的データの両方について、 二値分類または連続値ターゲットを設定して、ILを有効にし、設定にアクセスします。

    ヒント

    モデリングを開始する前にエクスペリメント設定タブから移動しないでください。 そうでない場合、DataRobotはデータセットとドラフトの再登録(サイズによっては時間がかかる場合があります)を行います。その結果、不完全な設定が原因で増分学習はサポートされません。

  4. クイックオートパイロット(デフォルト)または手動のいずれかの モデリングモードを選択します。 包括的モードは、ILでは使用できません。 エクスペリメントのサマリーが更新され、インクリメンタルモデリングが有効になったことが示されます。

  5. 追加設定 > インクリメンタルモデリングタブをクリックします。

  6. プロジェクトの設定を行います。

    設定 説明
    増分サイズ 各イテレーションに割り当てる行数を設定します。 DataRobotは、増分ごとに有効な範囲を提供します。
    すべてのイテレーションで最上位モデルをトレーニング 最高のパフォーマンスのモデルに対するトレーニングを継続するかどうかを設定します。 選択すると、パフォーマンスが最も高いモデルがすべての増分でトレーニングされます。その他のリーダーボードモデルは単一の増分でトレーニングされます。 選択しない場合、すべてのモデルは単一の増分でトレーニングされます。 手動モデリングモードが選択されている場合、この設定は無効になります。
    モデルの精度が上がらなくなったらトレーニングを停止 検定パーティションに基づいて、モデルの精度が頭打ちになったときに新しいモデルイテレーションのトレーニングを停止するかどうかを設定します。 具体的には、精度指標が前の3回のイテレーションに比べて0.000000001%以上改善しない場合、トレーニングは停止します。

    設定の右側にあるグラフィックは、DataRobotがエクスペリメントデータを分割した増分の数とサイズを示します。 増分の数が変更されると、グラフィックが変化します。

    ILパーティショニング

    ILパーティショニングについては、以下の点に注意してください。

    • エクスペリメントのパーティショニング設定は最初のイテレーションに適用されます。 後続の各イテレーションからのデータがモデルのトレーニングパーティションに追加されます。
    • 最初のイテレーションはすべてのパーティション(トレーニング、検定、ホールドアウト)に使用されるので、トレーニングデータのみを保持する後続のイテレーションよりも小さくなります。
  7. モデリングを開始をクリックします。

  8. 最初のイテレーションが完了すると、 モデルのイテレーションのインサイトがリーダーボードで使用可能になります。

ILに関する注意事項

データセットが10GBよりも大きい場合、増分学習が自動的にアクティブになります。 ILを操作する場合は、次の点に注意してください。

  • ILは時間を認識しない二値分類、多クラス分類、および連続値エクスペリメントにおいて可能です。
    • 多クラスデータでは、最初のチャンクにない新しいクラスはトレーニングプロセスから除外されます。 モデルは、最初のチャンクに存在するクラスでのみトレーニングされます。
    • 新しいデータチャンクを使った多クラスエクスペリメントでは、最初のチャンク(プロジェクトの開始元のデータ) から少なくとも2つのクラスが必要です。
  • ユースケースからILエクスペリメントのドラフトを再開することはできません。 新しいエクスペリメントを作成する必要があります。
  • デフォルトの増分サイズは4GBです。 10GB、または機能フラグ20GBのスケールアップモデリングの最適化を有効にするが有効な場合は20GBまで引き上げることができます。
  • データセットは、AIカタログに登録された静的またはスナップショットである必要があります。 ローカルコンピューターから直接アップロードすることはできません。
  • データセットは10GBから100GBの間に収まる必要があります。
  • ILは、ユーザー定義のグループ化、自動グループ化、または日付/時刻の分割手法をサポートしていません。
  • 包括的なモデリングモードは、ILエクスペリメントでは無効になっています。
  • 交差検定は使用できません。
  • 単調特徴量の制約、加重の割り当て、および保険固有の設定はサポートされていません。
  • 共有はユースケースレベルでのみ可能です。エクスペリメントレベルの共有はサポートされていません。 共有する場合、エクスペリメント作成者以外のユーザーが使用できる唯一のオプションは「アクティブなイテレーションの変更」です。 プロジェクトの共有先のユーザーが新しいイテレーションをトレーニングすると、すべてのイテレーションがエラーになります。
  • 10GBを超えるデータセットをモデル化するには、組織のAIカタログファイルのサイズ制限を増やす必要があります。 システム管理者に連絡してください。
  • 特徴量探索は、AWSマルチテナントSaaSでのみ使用できます。 プライマリーデータセットは最大20GBに制限されています。セカンダリーデータセットは最大100GBです。
  • 次のブループリントファミリーを使用できます。
    • Light Gradient Boosting、eXtreme Gradient Boosted Trees ClassifierなどのGBM (Gradient Boosting Machine)
    • 確率的勾配降下法などのSGD(線形モデル
    • KerasなどのNN(ニューラルネットワーク
  • デフォルトでは、特徴量ごとの作用により、上位500の特徴量(特徴量のインパクトでランク付け)のインサイトが生成されます。 実行時のパフォーマンスを考慮して、特徴量ごとの作用では、ILエクスペリメントの上位100の特徴量のインサイトが生成されます。

追加設定を行う

より高度なモデリング機能を設定するには、追加設定タブを選択します。 時系列モデリングタブについては、データセットで日付/時刻特徴量が見つかったかどうかに応じて、使用可能になるかグレーアウトされます。

ビジネスユースケースに応じて、以下を設定します。

設定 説明
単調特徴量制約 特徴量とターゲットの間で影響の増減を制御します。
ウェイト Sets a single feature to use as a differential weight.
保険特有の設定 Sets weighting needs specific to the insurance industry.
地理空間のインサイト Build enhanced model blueprints with spatially-explicit modeling tasks.
Image augmentation Incorporate supported image types with other feature types in a modeling dataset.

単調特徴量制約

単調制約は、特徴量とターゲットの間の上下方向の影響を制御します。 一部のプロジェクト(保険業や銀行業など)では、特徴量とターゲットの間の方向関係性を強制することが望ましい場合があります(評価価値の高い家屋の火災保険料が常に高くなるなど)。 単調制約でのトレーニングを行うことによって、特定のXGBoostモデルに特定の特徴量とターゲットの間の単調(常に増加または常に減少)関係性を学習させます。

単調制約特徴量を使用するには、 特殊な特徴量セットを作成する必要があります。この特徴量セットは、ここで選択されます。 また、手動モードを使用する場合、使用可能なブループリントにはMONOバッジが付けられ、サポートされるモデルを識別できます。

ウェイト

ウェイト違いを表す重みとして使用し、各行の相対的な有用性を示す単一の特徴量を設定します。 これは、モデルの構築やスコアリングの際に、リーダーボードで指標を計算する目的で使用されます。新しいデータで予測を行う目的では使用されません。 選択した特徴量のすべての値が0より大きい値である必要があります。DataRobotでは検定が行われ、選択した特徴量にはサポートされている値のみが含まれているかどうかが確認されます。

保険特有の設定

保険業界の頻繁な加重ニーズに対処するいくつかの機能を利用できます。 次の表では各モデルについて簡単に説明しますが、詳細については、 ここを参照してください。

設定 説明
エクスポージャー 連続値問題のターゲット予測において厳密な比例関係で処理される特徴量を設定し、保険料率をモデリングする際にエクスポージャーの指標を追加します。 DataRobotでは、エクスポージャーで選択された特徴量は特殊な列として扱われ、モデルの構築やスコアリングの際に元の予測に追加されます。選択した列は、予測のために後でアップロードするすべてのデータセットに存在する必要があります。
イベント数 ゼロ以外のイベントの頻度に関する情報を追加することで、ゼロ過剰ターゲットのモデリングを改善します。
オフセット 各サンプルでモデルの切片(線形モデル)またはマージン(ツリーベースモデル)を調整するもので、複数の特徴量を受け付けます。

地理空間の設定

地理空間モデリングは、データの地理空間パターンのインサイトを得るのに役立ちます。 一般的な地理空間形式をネイティブに取込み、空間的に明示的なモデリングタスクを使用して、強化されたモデルブループリントを構築できます。 位置ごとの精度位置ごとの異常などのインタラクティブマップのポストモデリングは、データの誤差や異常を強調表示するのに役立ちます。

DataRobotは、次のネイティブの地理空間データ形式の取込みをサポートしています。

  • ESRIシェープファイル
  • GeoJSON
  • ESRIファイルジオデータベース
  • Well Known Text(テーブルの列に埋め込み)
  • PostGISデータベース

地理空間モデリングを設定するには、設定を表示をクリックし、ドロップダウンからロケーション特徴量を選択します。

備考

地理空間インサイトにアクセスするには、 モデリング特徴量セットに選択したロケーション特徴量を含める必要があります。

ワークベンチの地理空間モデリングは、探索的空間データ解析(ESDA)のインサイトを除いて、DataRobot ClassicのLocation AIと同じ機能を提供します。 地理認識モデリングの詳細については、 Location AIのドキュメントを参照してください。

Image augmentation

備考

Image augmentation for Visual Artificial Intelligence (AI) is not supported in time series experiments, but is available for time-aware predictive experiments. See other feature considerations, below.

Image augmentation is a part of the DataRobot Visual Artificial Intelligence (AI) offering. It adds a processing step in the blueprint that creates new images by randomly transforming existing images, thereby increasing the size of ("augmenting") the training data.

Why use augmentation?

There are two main reasons for transforming images and augmenting the dataset:

  1. 元のデータに合理的に含まれていたように見える新しい画像を作成する。 通常、変換の適用は、より多くのデータを収集してラベルを付けるよりもコストがかからないため、元の画像とほぼ同じくらいの画像でトレーニングセットのサイズを増やすための優れた方法です。

  2. 画像から一部の情報を意図的に削除し、画像のさまざまな側面に焦点を合わせるようにモデルをガイドして、それによって画像のより堅牢な表現を学習する。 これは、ぼかし切り抜きのセクションの例で説明します。

重要

Be certain to correctly prepare the dataset before uploading.

To begin image augmentation through image transformation, toggle on Generate new images. When enabled, DataRobot will create copies of every original training image, based on the transformation settings. If you do not toggle augmentation on, the insights are still available based on the DataRobot settings.

After setting values, you can preview a sample of the new images to fine-tune values. プレビューでは、データセットのすべての画像が、すべての可能な変換を伴って表示されるわけではありません。 Instead, it shows the original image with examples of transformations as they would appear in the data used for training.

Next, set the number of copies and the transformation options as described below.

See the following sections for more detail on Visual Artificial Intelligence (AI) and image augmentation:

元の画像ごとの新規画像

元の画像ごとの新しい画像には、DataRobotが作成する元の画像のバージョン数を指定します。 基本的に、オーグメンテーション後にデータセットを拡張する大きさを設定します。 たとえば、元のデータセットに1000の行があり、「新しい画像」の値が3の場合、モデルをトレーニングすると4000行になります(元の1000行および変換された画像を含む3000の新しい行)。

元の画像ごとの新しい画像の最大許容値は動的です。 つまり、DataRobotが元の行の数に基づく値を決定し、メモリー制限を超えずにモデルを構築するために安全に使用できるようにします。 簡単に言えば、1つのプロジェクトでは、(現在の特徴量セットに関係なく)最大値は300,000 / (number_of_rows * feature_columns)か1の、どちらか大きい方になります。

When you create new images, DataRobot adds rows to the dataset. All feature column, with the exception of the column containing the new image, are duplicate values of the original row.

Shift(シフト)

Helpful when: Object(s) to detect are not centered.

Specify the offset to apply. The offset value is the maximum amount the image will be shifted up, down, left, or right. 0.5の値は、画像を画像の幅の半分まで左または右に、または画像の高さの半分まで上下にシフトできることを意味します。 The actual amount shifted for each image is random, and Shift is only applied to each image with probability equal to the transformation probability. 画像は反射パディングで埋められます。 この変換は通常、上記の目的を果たし、撮影者が一歩前進したか後退したか、またはカメラを上げ下げしたかをシミュレートします。

スケール

Helpful when:

  • 検出対象のオブジェクトがカメラから一定の距離ではない。
  • 検出対象のオブジェクトのサイズが一定ではない。

Once selected, set the maximum amount the image will be scaled in or out. The actual amount scaled for each image is random—Scale is only applied to each image with probability equal to the transformation probability. スケールアウトすると、画像は反射パディングで埋められます。 この変換は通常、1番目の目的を満たし、撮影者が一歩前進したか後退したかをシミュレートします。

回転

Helpful when:

  • The object(s) to detect are in a variety of orientations.
  • 検出対象のオブジェクトに放射状の対称性がある。

設定されている場合は、Maximum Degrees(最大度)パラメーターを使用して、画像が時計回りまたは反時計回りに回転する最大度を設定します。 The actual amount rotated for each image is random, and Rotate is only applied to each image with probability equal to the transformation probability. 回転は、キャプチャしたオブジェクトが回転していた場合、または写真家がカメラを傾けていた場合に最適なシミュレーションになります。

ぼかし

Helpful when:

  • 画像にはさまざまな不明瞭性があります。
  • モデルは、精度の高い予測を行うために、大規模な特徴量を認識することを学習する必要があります。
Why use Blur?

If the images have a variety of blurriness, adding Blur can simulate new images with varying levels of focus. 2番目の目的は、ぼかしを追加することによって特定の小さなピクセルグループではなく、画像内のより大規模な形状や色に焦点を合わせるようにモデルをガイドします。 たとえば、モデルが全体の形状を考慮するのではなく、毛皮の1つの部分だけで猫を識別することを学習しているのではないかと懸念される場合、ぼかしを追加すると、モデルが小規模な特徴量と大規模な特徴量の両方に焦点を合わせるのに役立ちます。 ただし、製造上の小さな欠陥を認識するようにモデルをトレーニングしていいて、ぼかしを適用すると、トレーニングに役立つ貴重な情報が排除されるだけの場合があります。

Specify a filter size that sets the maximum size of the gaussian filter passed over the image to smooth it. たとえば、フィルターサイズが3の場合、新しい画像の各ピクセルの値は、元のピクセルを囲む3x3の正方形の集合体になります。 フィルターサイズを大きくすると、画像がぼやけます。 The actual filter size for each image is random, and is only applied to each image with probability equal to the transformation probability.

切り抜き

Helpful when:

  • 検出対象のオブジェクトが、他のオブジェクトによって部分的に遮られていることがある。
  • 画像内の複数の特徴量に基づいて予測を行う方法をモデルが学習する必要がある。
Why use Cutout?

If the object(s) to detect are frequently partially occluded by other objects, adding Cutout can simulate new images with objects that continue to be partially obscured in new ways. 2番目の目的に関して、切り抜きを追加すると、予測を行うためにオブジェクトの同じ部分を常に見るとは限らないようにモデルをガイドします。

たとえば、モデルをトレーニングして、さまざまな車種を区別できます。 モデルは、ボンネットの形状が80%の精度に達するのに十分であることを学習する可能性があるため、ボンネットからの信号がトレーニングの他の情報を上回る可能性があります。 切り抜きを適用することにより、モデルは常にボンネットを見ることができるとは限らなくなるので、車の他の部分を使用して予測を行うことを学習する必要があります。 これで画像内のさまざまな特徴量を使用して予測を行う方法が学習されるので、モデル全体の精度がより高くなる可能性があります。

Once selected, further configure the transformation.

  • Use Add holes to set the number of black rectangles that will be pasted over the image randomly.
  • Set the maximum height and width, in pixels, to indicate rectangle size, though the value for each rectangle will be random and is only applied to each image with probability equal to the transformation probability.

Flip

Helpful when:

  • The object(s) to detect has symmetry around a vertical line.
  • カメラが地面に対して平行。
  • The object you are trying to detect could have come from either the left or the right.
  • The object(s) to detect have symmetry around a horizontal line.
  • カメラが地面に対して垂直(たとえば、地面、テーブル、またはコンベヤーベルトの下から、または空の上からの撮影)。
  • 画像は重力の影響をほとんど受けない微細な物体。

Flip typically serves the purpose of simulating if the object was flipped vertically or if the overhead image was captured from the opposite orientation. The transformation has no parameters—new images will be flipped with probability of 50% (ignoring the value of the transformation probability).

変換の確率

For each new image that is created, each enabled transformation will have a probability of being applied equal to the value of this parameter. By default, transformation probability is 75%.

For example, if you enable Rotate and Shift and set the individual transformation probability to 0.8, this means that ~80% of your new images will at least have Rotate and ~80% will at least have Shift. Because the probability for each transformation is independent, and each new image could have neither, one, or both transformations, your new images would be distributed as follows:

シフトなし Shift(シフト)
回転なし 4% 16%
回転 16% 64%
Conceptual image of transformation probability

Set this value to 100 to ensure that all selected transformations are applied to all images.

Modeling with augmentation

After modeling is complete, open the experiment and click Setup to review the modeling configuration:

Click View details to see a summary of applied transformations:

使用可能なインサイト

Click the left-side Model Leaderboard tile and select a model to see applicable image-specific insights:

インサイト 説明
アクティベーションマップ Highlight regions of an image according to its importance to a model's prediction.
画像埋め込み View projections of images in two dimensions to see visual similarity between a subset of images and help identify outliers.
ニューラルネットワーク視覚化ツール View a visual breakdown of each layer in the model's neural network.

Augmentation feature considerations

  • 予測の説明の場合、予測データセットあたりの画像数は10,000に制限されます。 DataRobotは予測データセットに対してEDAを実行しないため、画像の数はnumber of rows x number of image columnsとして推定されます。 その結果、欠損値は画像の制限にカウントされます。

  • 画像の説明、画像の予測の説明は、デプロイからは利用できません(たとえば、バッチ予測または予測API)。

  • 画像特徴量のドリフト追跡はありません。

  • スコアリングコードのエクスポートはサポートされていませんが、ポータブル予測サーバーは使用できます。

  • オブジェクト検出は使用できません。

  • Visual Artificial Intelligence (AI) は時系列をサポートしていません。 Time-aware predictive experiments are supported.

設定を変更します。

ターゲットページに戻ることで、モデリングを開始する前に、プロジェクトのターゲットまたは特徴量セットを変更できます。 戻るには、サマリーのターゲットアイコン、戻るボタン、またはターゲットフィールドをクリックします。

次のアクション

すべての設定が適用されたら、モデリングを開始します。 モデリングを開始すると、DataRobotでリーダーボードにモデルが入力されます。 以下を実行することが可能です。


更新しました 2025年3月14日