特徴量探索プロジェクトの設定¶
特徴量探索は、データセットとそのデータセット内の特徴量の関係性に基づきます。 DataRobotは、このような関係性を構築および視覚化できる直感的な関係性エディターを提供します。 最終的な成果物として、これらのリンクから生成される多くの追加の特徴量が得られます。 派生した特徴量によって、より精度の高いモデルを構築し、より精度の高い予測をすることができます。 グラフおよび含まれるデータセットがDataRobotの特徴量探索エンジンによって分析され、特徴量エンジニアリング「レシピ」が決定されます。そのレシピから、トレーニングおよび予測に使用するセカンダリー特徴量が生成されます。
備考
データセットのサイズについては、特徴量探索のファイル要件を参照してください。
本機能の提供について
特徴量探索プロジェクトでセカンダリーデータセットの追加や操作がよりスケーラブルになる分散モードは、デフォルトではオフになっています。 この機能を有効にする方法については、DataRobotの担当者または管理者にお問い合わせください。
機能フラグ:分散モードでの特徴量探索を有効にする
ただし、分散モードはMicrosoft SQLデータ接続をサポートしていません。
特徴量探索を開始するには、次のセクションを参照してください。または、以下に関する詳細な手順にスキップします。
以下についても詳細に説明します。
特徴量探索の使用を開始する¶
ほとんどの場合、特徴量探索プロジェクトを開くために必要なものは、次の点を含むシンプルなプライマリーデータセットです。
- ターゲット(予測する列)。
- データセットに追加の関連データセットを関連づけるための識別子(customer_idやtransaction_idなど)。 このキーは、データセット結合の基盤として機能します。
- オプションの時間インデックス。これはプライマリーデータセットの日付特徴量で、 時間認識の特徴量探索をサポートします。 日付特徴量は、新しい特徴量を作成する予測ポイントとして使用されます。
プライマリーデータセットの各レコードは、望ましい分析単位を表します。 このプライマリーデータセットから、DataRobotは、セカンダリーデータセットと呼ばれる追加のデータセットとの関係性を作成する手順をガイドします。
セカンダリーデータセットには、プライマリーデータセットを強化できる可能性のある特徴量があります。 プライマリーデータセットとセカンダリーデータセットを追加したときに、両方のデータセットで1対1の関係性が見られる場合もありますが、これは必須ではありません。 ほとんどの場合、DataRobotはセカンダリーデータセット内の特徴量を集約して要約し、そこからプライマリーデータセットを強化します。
ユースケースのサンプル¶
以下のステップでは、融資が貸し倒れするかどうかを予測するために DataRobotが複数のデータセットから新しい特徴量を自動的に探索する仕組みについて説明します。 プライマリーデータセットのCreditRisk - Loan Applicationsでは、is-bad列がプロジェクトのターゲットです。 データセットの関係は、CustID列です。
2つの追加の関連データセットである CreditRisk - Credit InquiriesおよびCreditRisk - Tradeline Acccountsは、特徴量探索に使用されるセカンダリーデータセットです。
モデル構築が開始するとEDA2が実行され、新しく作成された特徴量がデータページに追加されます。 データページには、生成されたすべてのプロジェクトデータ(新旧両方)に関するさまざまな情報が表示されます。
データセット追加¶
AIカタログからプライマリーデータセットを選択し、新しいプロジェクトを作成をクリックします。 次に、ターゲット特徴量を入力します。
備考
この手順では、AIカタログを使用したデータセットを読み込む方法を示しています。開始するには、すべてのアセットがカタログ内にあることを確認してください。 または、ドラッグアンドドロップによってデータセットをアップロードすることもできます。 その場合、アップロードするすべてのデータセットがAIカタログに自動的に登録されます。
_有効な特徴量探索プロジェクトには、少なくとも1つのセカンダリーデータセットが必要です。_次のタブでは、開始ページと関係性エディターの両方から、プロジェクトに追加のデータセットを読み込む方法について説明します。
-
開始ページでデータセット追加をクリックして、1つ以上のデータセットをプロジェクトに追加します。
-
関係性エディターの予測ポイント日付を指定ページで、オプションの予測ポイントとして使用する日付特徴量を選択します。 プライマリーデータセットにおける日付/時刻特徴量は、特徴量の派生ウィンドウの参照日として機能します。
備考
プロジェクトの予測ポイントを既に指定している場合、予測ポイントを指定するステップは表示されません。
予測ポイントのアプリ内の説明については、例を示します。
-
時間認識特徴量探索プロジェクトの予測ポイントとして設定をクリックするか、時間認識モデルでないプロジェクトの予測ポイントなしで続行をクリックします。
備考
予測ポイントとして、時間外検定(OTV)パーティションに使用するのと同じ日付特徴量を選択できますが、予想ポイントなしで続行をクリックすると、新しい特徴量の生成時にOTVパーティション特徴量が自動的に使用されます。
予測ポイントを追加または編集すると、新しい特徴量の生成時にその変更が考慮されます。
-
関係性エディターのデータセットを追加ページで、以下からデータを追加の下にあるデータインポート方法を選択します。
この例では、AIカタログからデータセットを追加する方法を示します。
-
AIカタログから選択をクリックして、含めるデータセットを選択します。 検索機能を使用すると、選択するデータセットを簡単に見つけることができます。 終了したら、追加をクリックします。
-
続行をクリックして、選択を確定します。 このページで選択したセカンダリーデータセットは直ちに設定に追加されるので、続行をクリックせずにページを再ロードすると、データは失われません。
関係性を定義ページにデータセットを表示します。
ベストプラクティスとして、このエディター内で引き続き関係性を定義することをお勧めします。 プロジェクトを続行をクリックして開始画面に戻ることができます。
データセットが表示され、定義された関係性の数を表示できます。
いつでも 関係性を定義するをクリックして、関係性を定義するページに戻ることができます。
プロジェクトに複数のセカンダリーデータセットがある場合は、保存した後にその他のデータセットを追加できます。 関係性を定義するページから、以下の操作を行います。
-
データセット追加をクリックして、データのインポート方法を選択します。
この例では、AIカタログからデータセットを追加する方法を示します。
-
AIカタログから選択をクリックして、含めるデータセットを選択します。 検索機能を使用すると、選択するデータセットを簡単に見つけることができます。 終了したら、追加をクリックします。
関係性を定義ページにデータセットを表示します。
キャンバスに表示される各データセットは、データセット関連のタスクへのショートカットを含むメニューがあります。 詳細については、 プライマリーデータセットと セカンダリーデータセットの操作を参照してください。
プロジェクトにセカンダリーデータセットを追加した後、データセット間の 関係性を定義します。
データセットの詳細を表示¶
以下のいずれかの方法で関係性エディターから直接データセットの詳細にアクセスできます。
データセットタイルでは、データセット名の下の線にカーソルを合わせると、そのデータセットのメタデータが表示されます。
データセットタイルの右上にあるメニューアイコンをクリックして、詳細を選択し、AIカタログの情報ページを開きます。 ここから、データセットに関連付けられているプロフィール、特徴量セット、関係性、バージョン履歴、およびコメントにアクセスできます。
このメニューからデータセットを削除することもできます。
関係性の手動定義¶
すべてのデータセットがロードされたら、関係性を定義するページで関係性を定義します。 プライマリーデータセットはキャンバス上に表示され、セカンダリーセットは左側のウィンドウにリストされます。 2つのデータセット間の関係性を確立した後、 結合条件と 特徴量派生ウィンドウ(FDW)を設定して、時間認識特徴量エンジニアリングを行うことで、関係性を定義できます。
関係性を定義するには:
-
セカンダリーデータセットをクリックして強調表示します。プライマリーセットにはプラス記号が追加されます。
-
プラス記号をクリックします。 選択したセカンダリーデータセットがキャンバスに追加され、設定エディターが開きます。
次の表では、新しい関係性を作成するページの要素について説明します。
要素 説明 1 結合用のセカンダリーデータセット 結合で使用するセカンダリーデータセットを設定します。 ドロップダウンを使用して追加済みデータセットを変更します。 変更は下のキャンバスに反映されます。 2 結合用のプライマリーデータセット 結合で使用するプライマリーデータセットを設定します。 3 提案された結合条件 データセットの結合条件(特徴量)を設定します(対応するデータセットが条件の上にリストされます)。 DataRobotでは最大5つの条件が提示されます。それぞれの条件は編集可能です。 ドロップダウンを使用して新しい特徴量を選択します。結合を削除するには、ごみ箱アイコン()を使用します。 4 結合条件を追加する 手動結合設定オプションが提供されます。 5 保存または保存して、時間認識を設定します 関係性の設定を保存します。 日付特徴量がない場合、または予測ポイントを設定しなかった場合は、保存を選択します。 プライマリーデータセットから予測ポイントを設定した場合、保存して時間対応を設定するボタンが表示されます。 6 キャンバス表示コントロール ズームインまたはズームアウトするか、デフォルトの表示サイズにリセットします。 7 データセットメニューオプション プライマリーまたはセカンダリーデータセットで実行できるさまざまなアクションへのアクセスを提供します 。 8 結合編集を起動 関係性エディターが開き、クリックした行で結合されたデータセット間の関係性を定義または変更できます。 9 プライマリーアイコン 標的のアイコンは、プライマリーデータセットであることを示します。 10 ツアーの起動 特徴量探索の設定の概要を説明する短いツアーが開きます。 11 プロジェクトを続ける 開始画面に戻り、時間認識設定の変更、高度なオプションの設定、モデリングモードの設定に加えて、モデリングプロセスを開始することができます。
結合条件の設定¶
データセット内のテーブルが適切に書式設定されている場合、互換性のある特徴量が自動的に検出され、最大5つの「推奨」結合が作成されます。 各結合キーに関連付けられたドロップダウンを使用して、推奨結合を変更できます。
結合条件を追加するをクリックして、手動で結合キーを作成することもできます。 表示されるダイアログで、特徴量ドロップダウンを使用して、各データセットから結合特徴量を選択します。
結合可能な特徴量型と制限事項
結合の作成や変更を行う場合の互換性のある結合タイプについては、以下の表を参照してください。
特徴量タイプ | 互換性のある結合タイプ |
---|---|
数値 | 数値、カテゴリー |
カテゴリー | カテゴリ、数値、テキスト |
テキスト | テキスト、カテゴリ |
日付 | 日付 |
以下の特徴量型は結合キーとして使用できません。
- 集計されたカテゴリー型特徴量
- Length
- 通貨
- パーセンテージ
- 音声
- 画像
- ドキュメント
すべてのセカンダリーデータセットを追加し、関係性設定を選択したら、保存をクリックして時間認識を設定します または、時間認識でないプロジェクト用に保存。
- プロジェクトが時間認識ではない場合、開始ページが表示されます。
- 時間認識プロジェクトの場合、時間認識特徴量エンジニアリングページが表示され、ここで FDWを設定できます。
特徴量の派生ウィンドウの設定¶
セカンダリーデータセットを時間認識プロジェクトに追加すると、FDWを定義できます。これは、予測ポイントの前に特徴量を生成するために使用する過去の値のローリングウィンドウです。 FDWは時間履歴を制約します。以下は、30日前から2日前の例です。
-
時間特徴量を選択するをクリックして、セカンダリーデータセットの時間インデックス特徴量を選択します。
-
FDWを設定します。 各データセットに最大3つのFDWを設定できます、各ウィンドウは一意である必要があります。 FDWを追加するには、ウィンドウを追加をクリックします。
設定したFDWはキャンバス上のデータセットのタイルに反映されます。
こうした時間認識設定により、生成された特徴量が予測ポイント前に発生したデータに基づくことを担保します。 詳細については、時間認識特徴量エンジニアリングを参照してください。
関係性の自動生成¶
特徴量探索プロジェクトで関係性を自動生成するには、すべてのセカンダリーデータセットが追加されていることを確認してから、関係性を定義するページの上部にある関係性を生成をクリックします。
ARDが完了すると、プライマリーデータセットに関係性が自動的に追加されます。
備考
セカンダリーデータセットをプロジェクトに追加せずに関係性を生成をクリックすると、ボタンにはいつまでも「関係性を作成しています」と表示されます。
データセットの操作¶
データセットがキャンバスに追加されると、その設定を変更したり調整したりできます。 プライマリーデータセットはデフォルトでキャンバスに表示されますが、すべてのセカンダリーデータセットを追加する必要があります。
プライマリーデータセット¶
備考
メニューオプションを使用する前に、設定を保存してください。 ページを離れるとき、保存されてない変更は失われます。
キャンバスから作業する場合、データセットタイルのメニューオプションを選択できます。 プライマリーデータセットでは、関係性を追加することや予測ポイントを編集することができます。
オプション | 説明 |
---|---|
関係を追加 | 以前に設定した関係がない場合、関係を追加を選択して新しい関係性を作成するページを開きます。 これは、左側のリストからデータセットを選択してプライマリーのキャンバスタイルのプラス記号をクリックする操作と同じです。 ページが開いたらドロップダウンからセカンダリーデータセットを選択し、キャンバスに追加します。 |
予測ポイントを編集 | 予測ポイントを編集を選択して、予測ポイントとして使用する異なる日付特徴量を選択します。 |
セカンダリーデータセット¶
セカンダリーデータセットを選択してキャンバスに移動すると、そのタイルでメニューオプションが使用できるようになります。 次の表は、メニューから使用できるオプションを示しています。
オプション | 説明 |
---|---|
関係を追加 | 関係性エディターを開き、(左側のウィンドウで使用可能なものから)結合するデータセットを選択します。 |
エイリアスを編集 | データセットのエイリアスを設定できます。 セカンダリーデータセット名がキャンバスに表示されます。 エイリアスでは、左ペインのデータセットリストまたは関係性エディターページの表示は変更されません。 |
データセットを設定 | データセット設定エディターが開きます。ここでは、データセットの詳細を設定できます。 |
時間認識を設定 | 時間認識特徴量エンジニアリング設定ダイアログが開きます。ここでは、セカンダリーデータセットの時間インデックスを選択するか、正しい日付/時刻特徴量が選択されていることを確認することができます。 |
詳細 | クリックしてAIカタログのデータセットの情報ウィンドウを開きます。 |
削除 | 現在の関係性設定から、データセット(およびそのすべての関係性)を削除します。 データセットは引き続き設定で使用することが可能で、左側のパネルにリストされます。 |
セカンダリーデータセットのメニューから データセットを設定を選択すると、データセットエディターが開きます。
ここでは以下の操作を行うことができます。
-
データセットのエイリアスを変更します。 手動で設定されていない場合、ファイル名に基づいてエイリアスが自動的に生成されます。 エイリアスを変更するには、ボックス内をクリックします(プライマリーデータセットのエイリアスは変更できません)。
-
このプロジェクトに使用するスナップショットポリシー(最新、固定、または動的)を選択します。 デフォルトでは、選択したスナップショットポリシーが予測時に適用されます。
-
対応するデータセットに対して適用する特徴量セットを選択します。 このオプションを使用し、関連する特徴量を選択してテーブルのサイズを制限します。 AIカタログから新しい特徴量セットを作成できます。
関係性の品質をテスト¶
1つ以上のセカンダリーデータセットを設定した後、それらの関係性設定の品質をテストして、作成プロセスの早い段階で潜在的な問題を把握できます。 関係性品質評価ツールは、EDA2の開始前に結合キー、データセットの選択、および時間認識設定を検証します。
設定を確認ボタンをクリックして、関係性の品質評価をトリガーします。
進行状況インジケーター(スピナーの読み込み)が各データセットと、無効になっている設定を確認ボタンに表示され、評価が現在実行中であることを示します。
評価が完了すると、DataRobotはテストされたすべてのデータセットにマークを付けます。 問題が特定されたものには黄色の注意アイコンが表示され、問題が特定されていないものには緑色のチェックマークが表示されます。
詳細:関係性の評価
プロジェクトタイプによって、DataRobotは関係性エンリッチメントレート、ウィンドウ設定、最新のデータを評価します。それぞれ、以下の表に説明されています。
カテゴリー | 説明 | 解決方法 | プロジェクトタイプ |
---|---|---|---|
エンリッチメントレート | プライマリーテーブルの行にマッピングされるセカンダリーデータセットの行の数を、パーセンテージで素早く判断できるようになります。 | データセットと関係性を確認します。 | すべて |
ウィンドウ設定 | 指定したFDW内のプライマリーデータセットにマッピングされるセカンダリーデーセット内の行の数を決定します。 | ウィンドウ設定を展開すると、その他の行が表示されます。 | 時間認識 |
最新のデータ | セカンダリーおよびプライマリーデータセットの最小および最大時間インデックスを比較して、セカンダリーデータセットが古いかどうかを確認します。 | 選択された特徴量セットとスナップショットポリシーを確認します。 | 時間認識 |
評価が動的スナップショットポリシーがあるJDBCソースに対して、常に更新されます。
次の式を使用してDataRobotがエンリッチメントレートを計算します。
(rows_of_primary_that_can_be_mapped_to_secondary
/ total_rows_of_primary
) x 100
注意アイコンを選択して、提案された潜在的な修正を含む問題のサマリーを表示します。 評価中に特定された問題のサマリーがウィンドウの上部に表示されます。
サンプリング率
実行時間を短縮するために、DataRobotはプライマリーデータセットの約10%をサブサンプリングすることで、エンリッチメントレートの推定精度や評価結果に影響を与えることなく、計算の高速化を実現します。 サンプリング率はレポートの上部に表示されます。
詳細レポートを開くには、右側のオレンジの矢印をクリックします。 DataRobotがカテゴリーごとに評価を分割し、問題を診断するための追加情報を提供します。 セカンダリーデータセットに複数のFDWがある場合、詳細なレポートがレポートごとに作成されます。
注意を解決するには、各注意の下に表示されるオレンジのリンク(データセットの確認、関係性の確認、またはウィンドウ設定の確認)をクリックします。関係性エディターの上部にペインが表示され、関係性設定を変更できます。
モデル構築が開始され、EDA2が完了した後、データ > 特徴量探索タブで最新の関係性の品質評価を表示できます。
プロジェクトの開始¶
-
関係性の定義が完了したら、プロジェクトの続行をクリックしてスタート画面に戻ります。
セカンダリーデータセットセクションでは、セカンダリーデータセットの詳細に関するビジュアルキューが表示されます。
ビジュアルキュー 示す 1 青いテキストを含むデータセット データセットは、プロジェクトの一部で使用中です。 2 ホワイトテキストを含むデータセット データセットはロードされましたが、関係性の定義の一部はロードされていません。 3 リンクされたデータセット このデータセットでリンクされたデータセットの数。 4 データセットと関係性の数 セカンダリーデータセットと、定義された関連性の数。 -
開始をクリックします。
DataRobotは、EDA2の一部として特徴量エンジニアリングを実行し、モデルのブループリントの生成を開始します。
アセットの共有¶
その他のDataRobotプロジェクトと同様に、(権限に応じて)特徴量探索プロジェクトを共有できます。 共有を許可するユーザーには、さまざまな権限を割り当てることができます。 エンジニアリンググラフとデータセットも共有する機能は、特徴量探索プロジェクトに特有の機能です。
プロジェクトを共有するには、シェアアイコン()をクリックします。 受信者がプロジェクトと関わるには、追加のアセットにアクセスする必要があります。 デフォルトでは、アセットは共有されません。 関係性とデータセットの共有を有効にします。そうでない場合、注意が表示されます。
割り当てられた役割に加えて、プロジェクトユーザーのリストには、プロジェクトアセットが共有されているかどうかも示されます。