データの変換¶
DataRobotは、単一データセットに対する自動および手動の特徴量の変換、および複数データセットに対する特徴量探索など、複数の特徴量エンジニアリング手法をサポートしています。 DataRobotでの特徴量の変換オプションについては、以下の表を参照してください。
トピック | 説明 | データセット | 備考 |
---|---|---|---|
自動変換 | |||
自動特徴量の変換 | DataRobotによって生成される日付型特徴量の変換について説明します。 | プライマリー | EDA1で計算されます。 |
交互作用ベースの変換 | 高度なオプションを有効にして、プライマリーデータセット内の交互作用に基づいて特徴量を変換します。 | プライマリー | プロジェクトで有効化され、EDA2で計算されます。 |
特徴量探索 | 複数のデータセットを対象として、交互作用ベースで特徴量を作成します。 | セカンダリー | プロジェクトで設定され、EDA2で計算されます。 |
モデリング時の自動変換 | モデリングプロセスの一部としてDataRobotが実行する自動特徴量エンジニアリングについて説明します。 | すべて | モデリング中に実行されます。 |
手動変換 | |||
手動による特徴量の変換 | 特徴量の型の変換など、データセット内の特徴量を手動で変換します。 | プライマリー | プロジェクトで変換されます。 |
AIカタログの変換 | |||
Spark SQLを使用したAIカタログでのデータの準備 | AIカタログ内でSpark SQLクエリーデータセットを使用して、データセットを強化、変換、成形、および組み合わせます。 |
特徴量エンジニアリングとは¶
特徴量エンジニアリングとは、モデルのパフォーマンスを向上させるために、既存の特徴量を変更したり、新しい特徴量を派生させたりして、機械学習用のデータセットを準備するプロセスのことです。 自動特徴量エンジニアリングは、AIを使用してデータから機械学習アセットへの変換を高速化し、より優れた機械学習モデルを短時間で構築できるようにします。
特徴量エンジニアリングは、データの準備と取込みの後、モデルの構築前に行われます。
EDA1では、DataRobotは各データセットのすべての特徴量を分析してプロファイリングします。特徴量型の検出、日付型特徴量の 自動変換、特徴量の品質評価が含まれます。
モデルを構築する前に、プライマリーデータセットに対して 交互作用ベースの変換を有効にするか、 特徴量探索を使用して複数のデータセット間の関係性を定義することで、DataRobotの自動特徴量エンジニアリングをさらに活用できます。 関数を使用して、特徴量の型の変換など、データセット内の 特徴量を手動で変換することもできます。
EDA2では、DataRobotはこれらの既知の交互作用や関係性を利用して、機械学習モデルに関連する特徴量を検出し、それらを自動変換して、ブループリントライブラリ内の各アルゴリズムの固有の要件に対応します。
モデルの構築後、リーダーボードに移動してモデルを選択します。 DataRobotがモデリングプロセスで個々のモデルに対して行った 変換は、複数の場所で確認できます。
特徴量 | 説明 | 位置 |
---|---|---|
ブループリント | 選択したモデルの前処理、モデリングアルゴリズム、および後処理タスクを表示します。 | 説明 > ブループリントをクリックします。 |
データ品質処理レポート | サポート対象のブループリントタスクの特徴量と補完に関する情報を表示します。 | 説明 > データ品質処理をクリックします。 |
係数 | サポートされているモデルタイプの係数と前処理情報(特徴量の変換など)をダウンロードできます。 | 説明 > 係数をクリックし、エクスポートをクリックします。 |