データオーグメンテーションの方法¶
このページでは、DataRobotが各エクスペリメントタイプに合わせてデータセットを補強するさまざまな方法をまとめています。
派生特徴量のための特徴量探索¶
特徴量探索は、多数のデータセットから新しい特徴量を識別し生成します。このため、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。 さまざまなヒューリスティックを使用して、DataRobotプロジェクトで派生させる特徴量のリストを決定し、データセットの結合と集約の手順を自動化します。 結果は、検出された特徴量タイプ、特徴量の特性、データセット間の関係性、データサイズの制約など、多くの要因に応じて異なります。
時系列特徴量の派生¶
DataRobotの時系列では、特徴量エンジニアリングと特徴量削減処理によって、時系列モデリングデータセットを作成します。 モデリングフレームワークは、時間に左右されるデータから関連する特徴量を抽出して、ユーザー設定可能な予測ニーズに基づいて修正し、元のデータセットから派生したまったく新しいデータセットを作成します。 その後、モデル構築で標準および時系列固有の機械学習モデリングが使用されます。 特徴量エンジニアリングプロセスには、時系列データ準備機能と、特徴量削減プロセスで削除された特徴量を復元する機能が含まれています。
時間認識のデータラングリング¶
時間認識ラングリングでは、操作のレシピが作成されます。このレシピは、最初にサンプルに適用され、検証後に時間認識データのデータセット全体に適用されます。 これにより、データ準備段階で時系列の特徴量エンジニアリングを実行できます。 入力データに対してラグやローリング統計のような処理を実行することで、モデリングの前にどの時間ベースの特徴量を生成するかを制御できます。 時間認識操作と非時間認識操作の両方を追加した結果として得られるプレビューを確認することで、パブリッシュする前に調整できるため、自動的に実行される処理がユースケースに合わない場合に、モデリングを再実行する必要がなくなります。
トレーニング時の画像オーグメンテーション¶
トレーニング時の画像オーグメンテーション は、DataRobotブループリントの処理ステップであり、既存の画像をランダムに変換することでトレーニング用の新しい画像を作成し、それによってトレーニングデータのサイズを大きくします(「拡張」します)。 既存の画像をランダムに変換してトレーニング用の新しい画像を作成することで、小さすぎるデータセットを使用してインサイトに満ちたプロジェクトを構築できます。 さらに、オーグメンテーションを使用するすべての画像プロジェクトは、見えないデータのモデルの一般化を改善することにより、全体的な損失を減らす可能性があります。
自動化されたロケーション特徴量エンジニアリング¶
Location AIは、地理空間データを取り込み、自動認識して、変換する機能を提供し、DataRobotのモデルブループリントに対して強力な機能を実現します。 たとえば、行レベルのジオメトリに関連付けられたジオメトリプロパティを機械学習モデルの強力な予測子として使用できます。 Location AIでは、入力ジオメトリのプロパティから特徴量が自動的に派生します。 DataRobotでは、MultiPoint、Line/MultiLine、Polygon/MultiPolygonの特徴量が派生します。