特徴量探索¶
エンタープライズ全体にAIをデプロイするには、予測モデルを最大限に活用するために関連する特徴量にアクセスできる必要があります。 データの開始ポイントに適切な特徴量が含まれていないことがよくあります。 特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。
データセットサイズに関する情報については特徴量探索 ファイル要件、重要な追加情報については関連する 考慮事項を参照してください。
Self-managed: Allocate resources for large datasets
If you're working with large datasets, an admin can allocate additional compute resources by navigating to User settings > System configuration, enabling XLARGE_MM_WORKER_SAFER_AIM_CONTAINER_MEM_MB
, and specifying the number of resources in the field.
オープンな特徴量探索¶
ワークベンチで特徴量探索を実行するには、データタブで、プライマリーデータセットとして機能するデータセットの右側にあるアクションメニュー :fontawesome-solid-ellipsis-vertical > 特徴量探索をクリックします。 特徴量探索レシピでセカンダリーデータセットを追加および設定する場合、ここで選択したデータセットとの関係性を定義します。
DataRobotは特徴量探索を開き、プライマリーデータセットをキャンバスに追加します。
プライマリーデータセットの設定¶
プライマリーデータセットを選択した状態で、予測ポイント(予測のタイミング)を入力します。 予測ポイントは、データセットで日付特徴量が検出された場合にのみ使用できます。
次に、保存をクリックします。 ページの下部に_保存されたプライマリーデータ設定_ が表示されます。
セカンダリーデータセットを追加¶
特徴量探索では、少なくとも1つのセカンダリーデータセットが必要です。 それ以外の場合は、特徴量探索を実行する必要がなく、単一のデータセットを使用してエクスペリメントを直接設定できます。 セカンダリーデータセットを追加するには:
-
左側のパネルで、+ データセットを追加をクリックします。 データを追加モーダルが開きます。
-
データ接続、データレジストリ、または現在のユースケースからデータを追加したり、データセットをクリックしてプレビューしたりできます。 追加する各セカンダリーデータセットの左側にあるボックスを選択し、データセットを追加をクリックします。
すべてのセカンダリーデータセットが、左側のパネルに表示されます。
関係性を追加¶
データセット間に関係性を追加すると、2つのデータセットが接続されていることがDataRobotに示されます。 プライマリーデータセットとセカンダリーデータセットの関係性を確立する方法は2通りあります。
-
セカンダリーデータセットを選択し、キャンバスのデータセットノードの下に表示される+をクリックします。
-
キャンバス上のデータセットノードを選択し、アクションメニュー から関係性を追加を選択します。 左側のパネルで、結合するデータセットを選択します。
備考
プライマリーデータセットとセカンダリーデータセットの関係性を定義した後、別のデータセットを追加する前に、その関係性の結合条件を設定する必要があります。
結合条件の設定¶
関係性を追加すると、2つのデータセット間に接続があることが立証されますが、結合条件では、それらが どのように 関係しているかを指定します。
データセットのテーブルの形式が適切な場合、DataRobotは互換性のある特徴量を自動的に検出し、結合条件フィールドに最も適切な特徴量、多くの場合、両方のデータセットに含まれる特徴量を入力します。
要素 | 説明 | |
---|---|---|
1 | 結合 | 2つのデータセットノード間の関係性または結合を示す視覚的表現。 これをクリックして、関係性と結合条件を編集します。 |
2 | 結合するノード | 結合された2つのデータセットノード。 |
3 | 結合条件 | 2つのデータセットがどのように関連しているかをDataRobotに伝える特徴量(各データセットから1つずつ)。 |
4 | + 結合条件を追加する | クリックすると、追加の結合条件が含まれます。 |
5 | 保存 / 保存して時間対応を設定する |
|
結合可能な特徴量型と制限事項
結合の作成や変更を行う場合の互換性のある結合タイプについては、以下の表を参照してください。
特徴量タイプ | 互換性のある結合タイプ |
---|---|
数値 | 数値、カテゴリー |
カテゴリー | カテゴリ、数値、テキスト |
テキスト | テキスト、カテゴリ |
日付 | 日付 |
以下の特徴量型は結合キーとして使用できません。
- 集計されたカテゴリー型特徴量
- Length
- 通貨
- パーセンテージ
- 音声
- 画像
- ドキュメント
詳細については、DataRobot Classicセクションの 結合条件の設定を参照してください。
セカンダリーデータセットの設定¶
キャンバスでセカンダリーデータセットノードを選択して、名前、特徴量セット、時間認識(該当する場合)などの設定を行います。
ノード設定¶
セカンダリーデータセットノードの設定を編集するには、セカンダリーデータセットノードをクリックし、次のオプションを含むノード設定タブを開きます。
要素 | 説明 | |
---|---|---|
1 | ノードのエイリアス | ノードの上部に表示される名前を変更します。 デフォルトでは、キャンバスに表示される文字列はセカンダリーデータセット名です。 データセット名が長すぎて完全に表示できない場合、ノードエイリアスを入力すると便利です。 |
2 | スナップショットポリシー | データセットノードに関連付けるスナップショットポリシーを選択します。 |
3 | 特徴量セット | このノードのデータセットに適用する特徴量セットを選択します。 |
4 | + 新しい特徴量セットを作成 | 以下の特徴量を使用して、データセットノードに適用する新しい特徴量セットを作成します。 |
5 | 特徴量 | データセットに含まれる特徴量を表示します。 |
時間認識¶
DataRobotがプライマリーデータセットで日付特徴量を検出した場合、 予測ポイントを選択して時間認識を設定できます。 セカンダリーノードのこれらの設定を編集するには、次のオプションを含む時間認識タブを開きます。
要素 | 説明 | |
---|---|---|
1 | 時間インデックス | 特徴量探索中にDataRobotが結合と集計を実行する時間ウィンドウを決定します。 |
2 | 特徴量派生ウィンドウ(FDW) | 特徴量の作成に使用するローリングウィンドウを設定します。これにより、データの傾向から学習するモデルの能力が向上し、より精度の高い予測が可能になります。 |
3 | + 特徴量派生ウィンドウの追加 | 追加のFDWを定義して、時間認識特徴量探索を微調整します。 |
4 | 予測ポイント:{date_feature} 最も近い値に切り捨て | 特徴量探索の実行時にDataRobotが予測ポイントを丸める方法を制御します。 この四捨五入により特徴量探索の処理速度が速くなりますが、その代償として、新規のセカンダリーデータセットレコードが失われる可能性があります。 |
予測ポイントと時間インデックス
予測ポイントはプライマリーデータセットに適用され、予測を作成できる場合の基準日として使用されます。 時間インデックスはセカンダリーデータセットに適用され、DataRobotが特徴量探索の一部として結合と集計を実行できる時間ウィンドウを決定するために使用されます。
詳細については、 時間認識特徴量エンジニアリングを参照してください。
関係性の自動生成¶
関係性の自動検出(ARD)では、特徴量探索レシピのプライマリーデータセットとすべてのセカンダリーデータセットを分析し、特徴量の関係性を検出および生成します。これにより、データセットのつながりが不明な場合に、潜在的な関係性をすばやく調べることができます。
備考
関係性を自動生成する前に、以下の点に注意してください。
- ARDを実行する前に、すべてのセカンダリーデータセットを特徴量探索のレシピに追加する必要があります。
- ARDは動的なデータセットでは実行できません。
特徴量探索のレシピで関係性を自動生成するには:
-
すべてのセカンダリーデータセットが追加されていることを確認します。
-
その後、キャンバスの上部にある関係性を生成をクリックします。
ARDが完了すると、セカンダリーデータセットがキャンバスに自動的に追加され、データセット間の関係性が設定されます。
関係性設定の確認¶
1つ以上のセカンダリーデータセットを設定した後、それらの関係性設定の品質をテストして、作成プロセスの早い段階で潜在的な問題を把握できます。 関係性品質評価ツールは、結合キー、データセットの選択、および時間認識設定を検証します。
設定を確認をクリックして、特徴量探索キャンバスで関係性をテストします。
各ノードには、評価の結果が表示されます。 関係性の品質が評価に合格すると、緑色のチェックマークがノードに表示されます。
評価で品質の問題が検出された場合、影響を受けるノードに黄色の感嘆符が表示されます。
詳細については、 関係性の品質をテストを参照してください。
特徴量探索のコントロールを設定¶
特徴量エンジニアリングの方法を設定するには、設定を開きます。ここでは、特徴量エンジニアリングのコントロールや特徴量の削減などが可能です。
設定 | 説明 | DataRobot Classicの続きを読む |
---|---|---|
特徴量探索のコントロール | 特徴量探索中にDataRobotが評価する特徴量タイプを設定します。 | 特徴量探索の設定を参照してください。 |
特徴量の削減 | この特徴量を有効にすると、特徴量探索中にDataRobotが新しい特徴量を生成し、インパクトの低い特徴量または重複した特徴量を削除します。 | 特徴量の削減を参照してください。 |
モデリングを開始¶
関係性の設定が終わり、関係性の設定評価に合格したら、そのままエクスペリメントの設定に進んでモデリングを開始できます。
特徴量探索のレシピを使ってエクスペリメントを設定するには:
エクスペリメントでモデリングを開始をクリックすると、特徴量探索の一部として結合と集計が行われ、さらに充実した出力データセットが生成されます。このデータセットはデータレジストリに登録され、現在のユースケースに追加されます。
Download recipe SQL¶
Once the enriched dataset is registered and added to the Use Case—which only happens after you start modeling—you can access the Spark SQL that DataRobot used to execute the actions specified in your Feature Discovery recipe.
To access the recipe SQL:
- Open the enriched dataset in the Use Case.
-
On the Info tab for the dataset, click Recipe SQL.
-
View the SQL to understand how DataRobot performed the joins and aggregations as part of Feature Discovery or copy the SQL to run the SQL in a new Spark cluster.