Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量探索

エンタープライズ全体にAIをデプロイするには、予測モデルを最大限に活用するために関連する特徴量にアクセスできる必要があります。 データの開始ポイントに適切な特徴量が含まれていないことがよくあります。 特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。

その他の重要情報については、関連する注意事項を参照してください。

特徴量エンジニアリングのワークフローの概要について学習するには、次のテーブルからトピックを選択します。

トピック 説明...
特徴量探索プロジェクト Create and configure projects with secondary datasets, including a simple use-case-based workflow overview.
時間認識特徴量エンジニアリング 時間認識特徴量エンジニアリングを設定します。
派生した特徴量 集計のリストと特徴量削減プロセスの概要。
予測 セカンダリーデータセットを使用して作成されたモデルでデータをスコアリングします。

機能に関する注意事項

特徴量探索を使用する際は以下の点に注意してください。

  • JDBCドライバは、Java 1.8以降に対応している必要があります。

  • セカンダリーデータセットの場合、アップロードされたファイルとAIカタログに登録されたJDBCソースのみがサポートされています。

  • The following features are not yet supported in Feature Discovery projects:

    • スコアリングコード
    • 時系列
    • DataRobot Prime
    • チャレンジャーモデル
    • V1.0予測API
    • ポータブル予測サーバー(PPS)
    • Continuous AI
  • サポートされる最大値:

    • プロジェクトあたりのデータセットの数 = 30
    • The combined size of a project's primary and secondary datasets cannot exceed 100GB. Individual dataset size limits are based on AI Catalog limits.
  • プライマリーデータセットが40MBより大きい場合、CVパーティションはデフォルトで無効化されます。

  • Column names in Feature Discovery datasets cannot contain the following:

    • A trailing or leading single quote (e.g., feature1' or 'feature1)
    • A trailing or leading space (e.g., feature1<space> or <space>feature1)
  • プロジェクトの開始でエラーが発生した場合、関係性の定義に戻ることはできません。 You must restart the configuration.

  • 特徴量エンジニアリング関係性エディターでリンクを可視化するために使用した色の問題がある場合があります。

  • DataRobot JDBCコネクターに接続するには、特定のIPアドレスをホワイトリストに登録する必要があります。

ホスト:https://app.datarobot.com ホスト:https://app.eu.datarobot.com
100.26.66.209 18.200.151.211
54.204.171.181 18.200.151.56
54.145.89.18 18.200.151.43
54.147.212.247 54.78.199.18
18.235.157.68 54.78.189.139
3.211.11.187 54.78.199.173
3.214.131.132
3.89.169.252

備考

これらのIPアドレスは、DataRobot使用のためにのみ予約されています。

バッチ予測に関する注意事項

  • サポートされるのはDataRobotモデルだけです。外部モデルおよびカスタムモデルはサポートされていません。

  • モデルパッケージのエクスポートは、特徴量探索モデルではサポートされていません。

  • 特徴量探索モデルを非特徴量探索モデルで置き換えること(またはその逆)はできません。

  • 特徴量探索モデルを別の特徴量探索モデルに置き換えると、新しいモデルで使用される設定がデフォルトの設定になります。

  • 特徴量エンジニアリングが適用されるため、特徴量探索予測はDataRobotモデルよりも遅くなります。

  • 特徴量探索がセカンダリーデータセットを使用して特徴量を生成する場合、すべての特徴量値のハッシュ値(ROW_HASH)は、関係を解消するために使用されます(該当する場合)。 The value of hash changes when applied to different datasets, so if you make predictions with another secondary configuration, you may receive different predictions.

特徴量探索の互換性

以下の表では、特徴量探索がサポートする機能と、その制限を示します。

特徴量 サポートされていますか? 容量制限
単調性 可能 プロジェクト開始時に使用したプライマリーデータセットの機能に限定されます。 Note: Users can start the project without specifying constraints. They can then manually constrain models from the Leaderboard and the Repository on eligible blueprints using discovered/generated features.
GA2Mモデル内の二項間の交互作用 可能 プロジェクト開始時に使用したプライマリーデータセットの機能に限定されます。
ポジティブクラスの割り当て 可能
スマートダウンサンプリング 可能
教師あり特徴量削減 可能 セカンダリーデータセットが提供された場合のみ適用されます。
組み合わせ特徴量の探索 可能 Automatically enabled. Cannot be disabled if secondary datasets are provided.
スコアリングコード対応のブループリントのみ いいえ
上位モデルからアンサンブルを作成 可能
SHAPをサポートするブループリントのみを含める 可能
モデルをデプロイ用に推奨および準備 可能
MLOpsのチャレンジャーモデル いいえ
モデルを推奨するときにアンサンブルを含める 可能
精度の最適化を行ったテンプレートを使用 可能 これらのモデルは非常に低速です。
実行時間の上限 可能
ウェイト 可能 プロジェクト開始時のプライマリーデータセットは、加重特徴量を含んでいる必要があります。
オフセット 可能 プロジェクト開始時のプライマリーデータセットは、オフセット特徴量を含んでいる必要があります。
エクスポージャー 可能 エクスポージャー特徴量が、プロジェクトの開始に使用されるプライマリーデータセットに含まれている必要があります。
ランダムシード 可能
イベント数 可能 特徴量のイベント数が、プロジェクトの開始に使用されるプライマリーデータセットに含まれている必要があります。

更新しました January 11, 2023
Back to top