特徴量探索¶
エンタープライズ全体にAIをデプロイするには、予測モデルを最大限に活用するために関連する特徴量にアクセスできる必要があります。 データの開始ポイントに適切な特徴量が含まれていないことがよくあります。 特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。
その他の重要情報については、関連する注意事項を参照してください。
特徴量エンジニアリングのワークフローの概要について学習するには、次のテーブルからトピックを選択します。
トピック | 説明 |
---|---|
エンドツーエンドの特徴量探索 | 特徴量探索を使用して、データを強化する方法を示すエンドツーエンドの例。 |
特徴量探索プロジェクト | セカンダリーデータセットを使用したプロジェクトの作成と設定(シンプルなユースケースベースのワークフローの概要を含む)。 |
Snowflakeインテグレーション | DataRobotとSnowflakeの連携を設定することで、両方を使用するユーザーが、Snowflakeで計算を実行しながら、DataRobotでデータサイエンスプロジェクトを実行できるようにします。 |
特徴量探索の設定 | 特徴量エンジニアリングのコントロールや特徴量の削減など、特徴量探索の高度なオプションを設定します。 |
時間認識特徴量エンジニアリング | 時間認識特徴量エンジニアリングを設定します。 |
派生した特徴量 | 集計のリストと特徴量削減プロセスの概要。 |
予測 | セカンダリーデータセットを使用して作成されたモデルでデータをスコアリングします。 |
機能に関する注意事項¶
特徴量探索を使用する際は以下の点に注意してください。
-
JDBCドライバは、Java 1.8以降に対応している必要があります。
-
セカンダリーデータセットの場合、アップロードされたファイルとAIカタログに登録されたJDBCソースのみがサポートされています。
-
次の特徴量は、特徴量探索プロジェクトではまだサポートされていません。
- スコアリングコード
- 時系列
- チャレンジャーモデル
- V1.0予測API
- ポータブル予測サーバー(PPS)
- 自動再トレーニング
- スライスされたインサイト
- クラスタリング
-
サポートされる最大値:
- 1プロジェクトにつき30データセット。DataRobotでは、各特徴量派生ウィンドウとセカンダリーデータセットを「データセット」としてカウントします。
- プロジェクトのプライマリーデータセットとセカンダリーデータセットの合計サイズが100GBを超えることはできません。 個々のデータサイズの制限は、AIカタログの制限に基づいています。
-
プライマリーデータセットが40MBより大きい場合、CVパーティションはデフォルトで無効化されます。
-
特徴量探索データセットの列名には、以下を含めることはできません。
- 末尾または先頭の単一引用符(例:
feature1'
または'feature1
) - 末尾または先頭のスペース(例:
feature1<space>
または<space>feature1
)
- 末尾または先頭の単一引用符(例:
-
プロジェクトの開始でエラーが発生した場合、関係性の定義に戻ることはできません。 設定を再起動する必要があります。
-
特徴量エンジニアリング関係性エディターでリンクを可視化するために使用した色の問題がある場合があります。
-
DataRobot JDBCコネクターに接続するには、特定のIPアドレスをホワイトリストに登録する必要があります。
ホスト:https://app.datarobot.com | ホスト:https://app.eu.datarobot.com | ホスト:https://app.jp.datarobot.com |
---|---|---|
100.26.66.209 | 18.200.151.211 | 52.199.145.51 |
54.204.171.181 | 18.200.151.56 | 52.198.240.166 |
54.145.89.18 | 18.200.151.43 | 52.197.6.249 |
54.147.212.247 | 54.78.199.18 | |
18.235.157.68 | 54.78.189.139 | |
3.211.11.187 | 54.78.199.173 | |
52.1.228.155 | 18.200.127.104 | |
3.224.51.250 | 34.247.41.18 | |
44.208.234.185 | 99.80.243.135 | |
3.214.131.132 | 63.34.68.62 | |
3.89.169.252 | 34.246.241.45 | |
3.220.7.239 | 52.48.20.136 | |
52.44.188.255 | ||
3.217.246.191 |
備考
これらのIPアドレスは、DataRobot使用のためにのみ予約されています。
バッチ予測に関する注意事項¶
-
サポートされるのはDataRobotモデルだけです。外部モデルおよびカスタムモデルはサポートされていません。
-
モデルパッケージのエクスポートは、特徴量探索モデルではサポートされていません。
-
特徴量探索モデルを非特徴量探索モデルで置き換えること(またはその逆)はできません。
-
特徴量探索モデルを別の特徴量探索モデルに置き換えると、新しいモデルで使用される設定がデフォルトの設定になります。
-
特徴量エンジニアリングが適用されるため、特徴量探索予測はDataRobotモデルよりも遅くなります。
-
特徴量探索がセカンダリーデータセットを使用して特徴量を生成する場合、すべての特徴量値のハッシュ値(
ROW_HASH
)は、関係を解消するために使用されます(該当する場合)。 ハッシュの値は、異なるデータセットに適用されると変化するため、別のセカンダリー設定で予測を行うと、異なる予測を受け取る可能性があります。
特徴量探索の互換性¶
以下の表では、特徴量探索がサポートする機能と、その制限を示します。
特徴量 | サポートされていますか? | 容量制限 |
---|---|---|
単調性 | はい | プロジェクト開始時に使用したプライマリーデータセットの機能に限定されます。 備考:ユーザーは、制約を指定せずにプロジェクトを開始することができます。 ユーザーは後から、探索または生成された特徴量を使った、対象となるブループリントのリーダーボードやリポジトリから、手動でモデルに制約を追加できます。 |
GA2Mモデル内の二項間の交互作用 | はい | プロジェクト開始時に使用したプライマリーデータセットの機能に限定されます。 |
ポジティブクラスの割り当て | はい | |
スマートダウンサンプリング | はい | |
教師あり特徴量削減 | はい | セカンダリーデータセットが提供された場合のみ適用されます。 |
組み合わせ特徴量の探索 | はい | 自動的に有効になります。 セカンダリーデータセットが提供された場合は、無効にできません。 |
スコアリングコード対応のブループリントのみ | いいえ | |
上位モデルからアンサンブルを作成 | はい | |
SHAPをサポートするブループリントのみを含める | はい | |
モデルをデプロイ用に推奨および準備 | はい | |
MLOpsのチャレンジャーモデル | いいえ | |
モデルを推奨するときにアンサンブルを含める | はい | |
精度の最適化を行ったテンプレートを使用 | はい | これらのモデルは非常に低速です。 |
実行時間の上限 | はい | |
ウェイト | はい | プロジェクト開始時のプライマリーデータセットは、加重特徴量を含んでいる必要があります。 |
オフセット | はい | プロジェクト開始時のプライマリーデータセットは、オフセット特徴量を含んでいる必要があります。 |
エクスポージャー | はい | エクスポージャー特徴量が、プロジェクトの開始に使用されるプライマリーデータセットに含まれている必要があります。 |
ランダムシード | はい | |
イベント数 | はい | 特徴量のイベント数が、プロジェクトの開始に使用されるプライマリーデータセットに含まれている必要があります。 |