特徴量探索¶
プレビュー
ワークベンチでの特徴量探索はプレビュー機能として提供され、デフォルトでオンになっています。
機能フラグ:ワークベンチで特徴量探索を有効化
エンタープライズ全体にAIをデプロイするには、予測モデルを最大限に活用するために関連する特徴量にアクセスできる必要があります。 データの開始ポイントに適切な特徴量が含まれていないことがよくあります。 特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。
データセットサイズに関する情報については特徴量探索 ファイル要件、重要な追加情報については関連する 考慮事項を参照してください。
オープンな特徴量探索¶
ワークベンチで特徴量探索を実行するには、データタブで、プライマリーデータセットとして機能するデータセットの右側にあるその他のオプションアイコン > 特徴量探索をクリックします。 特徴量探索レシピでセカンダリーデータセットを追加および設定する場合、ここで選択したデータセットとの関係性を定義します。
DataRobotは特徴量探索を開き、プライマリーデータセットをキャンバスに追加します。
データソース
データラングリングとは異なり、特徴量探索はデータレジストリ、データ接続、またはローカルファイルからのデータをサポートできます。
2つの特徴量探索レシピがデータタブに追加された理由
特徴量探索を起動すると、DataRobotは、現在のユースケースのデータタブに2つのレシピエントリーを追加します。 1つのレシピがアクティブであり、開くとワークベンチで変更を再開できます。 他のレシピはグレーアウトして表示され、開くことはできません。 このレシピはプレースホルダーであり、オプションとして、DataRobot Classicで特徴量探索を再開できます。
プライマリーデータセットの設定¶
プライマリーデータセットを選択した状態で、ターゲット(予測対象)と予測ポイント(予測の時間)を入力します。 予測ポイントは、データセットで日付特徴量が検出された場合にのみ使用できます。
次に、保存をクリックします。 ページの下部に_保存されたプライマリーデータ設定_ が表示されます。
セカンダリーデータセットを追加¶
特徴量探索では、少なくとも1つのセカンダリーデータセットが必要です。 それ以外の場合は、特徴量探索を実行する必要がなく、単一のデータセットを使用してエクスペリメントを直接設定できます。 セカンダリーデータセットを追加するには:
-
左側のパネルで、+ データセットを追加をクリックします。 データを追加モーダルが開きます。
-
データ接続、データレジストリ、または現在のユースケースからデータを追加したり、データセットをクリックしてプレビューしたりできます。 追加する各セカンダリーデータセットの左側にあるボックスを選択し、データセットを追加をクリックします。
すべてのセカンダリーデータセットが、左側のパネルに表示されます。
関係性を追加¶
データセット間に関係性を追加すると、2つのデータセットが接続されていることがDataRobotに示されます。 プライマリーデータセットとセカンダリーデータセットの関係性を確立する方法は2通りあります。
-
セカンダリーデータセットを選択し、キャンバスのデータセットノードの下に表示される+をクリックします。
-
キャンバス上のデータセットノードを選択し、その他のオプション から関係性を追加を選択します。 左側のパネルで、結合するデータセットを選択します。
備考
プライマリーデータセットとセカンダリーデータセットの関係性を定義した後、別のデータセットを追加する前に、その関係性の結合条件を設定する必要があります。
結合条件の設定¶
関係性を追加すると、2つのデータセット間に接続があることが立証されますが、結合条件では、それらが どのように 関係しているかを指定します。
データセットのテーブルの形式が適切な場合、DataRobotは互換性のある特徴量を自動的に検出し、結合条件フィールドに最も適切な特徴量、多くの場合、両方のデータセットに含まれる特徴量を入力します。
要素 | 説明 | |
---|---|---|
1 | 結合 | 2つのデータセットノード間の関係性または結合を示す視覚的表現。 これをクリックして、関係性と結合条件を編集します。 |
2 | 結合するノード | 結合された2つのデータセットノード。 |
3 | 結合条件 | 2つのデータセットがどのように関連しているかをDataRobotに伝える特徴量(各データセットから1つずつ)。 |
4 | + 結合条件を追加する | クリックすると、追加の結合条件が含まれます。 |
5 | 保存 / 保存して時間対応を設定する |
|
結合可能な特徴量型と制限事項
結合の作成や変更を行う場合の互換性のある結合タイプについては、以下の表を参照してください。
特徴量タイプ | 互換性のある結合タイプ |
---|---|
数値 | 数値、カテゴリー |
カテゴリー | カテゴリ、数値、テキスト |
テキスト | テキスト、カテゴリ |
日付 | 日付 |
以下の特徴量型は結合キーとして使用できません。
- 集計されたカテゴリー型特徴量
- Length
- 通貨
- パーセンテージ
- 音声
- 画像
- ドキュメント
詳細については、DataRobot Classicセクションの 結合条件の設定を参照してください。
セカンダリーデータセットの設定¶
キャンバスでセカンダリーデータセットノードを選択して、名前、特徴量セット、時間認識(該当する場合)などの設定を行います。
ノード設定¶
セカンダリーデータセットノードの設定を編集するには、セカンダリーデータセットノードをクリックし、次のオプションを含むノード設定タブを開きます。
要素 | 説明 | |
---|---|---|
1 | ノードのエイリアス | ノードの上部に表示される名前を変更します。 デフォルトでは、キャンバスに表示される文字列はセカンダリーデータセット名です。 データセット名が長すぎて完全に表示できない場合、ノードエイリアスを入力すると便利です。 |
2 | スナップショットポリシー | データセットノードに関連付けるスナップショットポリシーを選択します。 |
3 | 特徴量セット | このノードのデータセットに適用する特徴量セットを選択します。 |
4 | + 新しい特徴量セットを作成 | 以下の特徴量を使用して、データセットノードに適用する新しい特徴量セットを作成します。 |
5 | 特徴量 | データセットに含まれる特徴量を表示します。 |
時間認識¶
DataRobotがプライマリーデータセットで日付特徴量を検出した場合、 予測ポイントを選択して時間認識を設定できます。 セカンダリーノードのこれらの設定を編集するには、次のオプションを含む時間認識タブを開きます。
要素 | 説明 | |
---|---|---|
1 | 時間インデックス | 特徴量探索中にDataRobotが結合と集計を実行する時間ウィンドウを決定します。 |
2 | 特徴量派生ウィンドウ(FDW) | 特徴量の作成に使用するローリングウィンドウを設定します。これにより、データの傾向から学習するモデルの能力が向上し、より精度の高い予測が可能になります。 |
3 | + 特徴量派生ウィンドウの追加 | 追加のFDWを定義して、時間認識特徴量探索を微調整します。 |
4 | 予測ポイント:{date_feature} 最も近い値に切り捨て | 特徴量探索の実行時にDataRobotが予測ポイントを丸める方法を制御します。 この四捨五入により特徴量探索の処理速度が速くなりますが、その代償として、新規のセカンダリーデータセットレコードが失われる可能性があります。 |
予測ポイントと時間インデックス
予測ポイントはプライマリーデータセットに適用され、予測を作成できる場合の基準日として使用されます。 時間インデックスはセカンダリーデータセットに適用され、DataRobotが特徴量探索の一部として結合と集計を実行できる時間ウィンドウを決定するために使用されます。
詳細については、 時間認識特徴量エンジニアリングを参照してください。
関係性設定の確認¶
1つ以上のセカンダリーデータセットを設定した後、それらの関係性設定の品質をテストして、作成プロセスの早い段階で潜在的な問題を把握できます。 関係性品質評価ツールは、結合キー、データセットの選択、および時間認識設定を検証します。
設定を確認をクリックして、特徴量探索キャンバスで関係性をテストします。
各ノードには、評価の結果が表示されます。 関係性の品質が評価に合格すると、緑色のチェックマークがノードに表示されます。
評価で品質の問題が検出された場合、影響を受けるノードに黄色の感嘆符が表示されます。
詳細については、 関係性の品質をテストを参照してください。
特徴量探索レシピのパブリッシュ¶
関係性の設定が完了し、関係性設定評価に合格したら、右上のパブリッシュをクリックして、特徴量探索コントロール、パーティショニング、出力データセットの名前変更機能などの追加設定にアクセスします。 以下のタブでは、使用可能なオプションについて説明します。
特徴量探索タブでは、以下を設定できます。
設定 | 説明 | DataRobot Classicの続きを読む |
---|---|---|
特徴量探索のコントロール | 特徴量探索中にDataRobotが評価する特徴量タイプを設定します。 | 特徴量探索の設定を参照してください。 |
特徴量の削減 | この特徴量を有効にすると、特徴量探索中にDataRobotが新しい特徴量を生成し、インパクトの低い特徴量または重複した特徴量を削除します。 | 特徴量の削減を参照してください。 |
パーティショニングタブでは、以下を設定できます。
設定 | 説明 | DataRobot Classicの続きを読む |
---|---|---|
分割の方法 | 特徴量探索中にDataRobotがデータを分割する方法を設定します。 使用可能なオプションは、ターゲット特徴量やパーティション列によって異なります。 | パーティショニングの詳細を参照してください。 |
検定タイプ | 特徴量探索中にDataRobotで使用する検定タイプを選択します。 | 検定タイプと 検定タイプの理解を参照してください。 |
交差検定の分割数 | 検定タイプが交差検定に設定されている場合に使用できます。 モデルのトレーニングに使用する交差検定の分割の回数を設定します。 | データパーティショニングと検定を参照してください。 |
検定の割合 | 検定タイプがトレーニング-検定-ホールドアウトに設定されている場合に使用できます。 検定に使用するデータのサブセットを設定します。 | データパーティショニングと検定を参照してください。 |
ホールドアウトの割合(%) | トレーニングおよび検定中に使用できないデータのサブセットを設定します。 | モデル検定の設定を参照してください。 |
完了したら、パブリッシュをクリックします。 次に、DataRobotは特徴量探索の一部として結合と集計を実行し、新しい出力データセットを生成します。これはデータレジストリに登録され、現在のユースケースに追加されます。
次のステップ¶
ここから、次のことができます。