特徴量探索プロジェクトの作成¶
特徴量探索は、データセットとデータセット内の特徴量の関係性に基づいています。DataRobotは、このような関係性を構築および可視化できる直感的な関係性エディターを提供します。最終的な成果物として、これらの関係性から多くの特徴量が追加されます。得られた特徴量によって、より精度の高いモデルを構築し、より精度の高い予測をすることができます。グラフおよび含まれるデータセットがDataRobotの特徴量探索エンジンによって分析され、特徴量エンジニアリング「レシピ」が決定されます。そのレシピから、学習および予測に使用するセカンダリー特徴量が生成されます。
備考
データセットのサイズについては、特徴量探索のファイル要件を参照してください。
特徴量探索を開始するには、次のセクションを参照してください。または、詳細な手順にスキップします。
また、時間認識の特徴量エンジニアリング、特徴量、および特徴量を持つモデルの予測の詳細を確認することもできます。
特徴量探索の使用を開始する¶
ほとんどの場合、特徴量探索プロジェクトを開くために必要なものは、次の点を含むシンプルなプライマリーデータセットです。
- ターゲット(予測する列)。
- データセットに追加の関連データセットを関連づけるための識別子(customer_id や transaction_id など)。このキーは、データセット結合の基盤として機能します。
- オプションのタイムインデックス。これはプライマリーデータセットの日付特徴量で、時間認識特徴量探索をサポートします。日付特徴量は、新しい特徴量を作成する予測ポイントとして使用されます。
プライマリーデータセットの各レコードは、望ましい分析単位を表します。このプライマリーデータセットから、DataRobot は、セカンダリーデータセットと呼ばれる追加のデータセットとの関係性を作成する手順をガイドします。
セカンダリデータセットには、プライマリーデータセットを強化できる可能性のある特徴量があります。プライマリーデータセットとセカンダリデータセットを追加したときに、両方のデータセットで1対1の関係性が見られる場合もありますが、これは必須ではありません。ほとんどの場合、DataRobotはセカンダリデータセット内の特徴量を集約して要約し、そこからプライマリデータセットを強化します。
ユースケースのサンプル¶
以下のステップでは、融資が貸し倒れするかどうかを予測するために DataRobot が複数のデータセットから新しい特徴量を自動的に探索する仕組みについて説明します。プライマリーデータセットのCreditRisk - Loan Applicationsでは、is_bad列 がプロジェクトのターゲットです。データセットの関係は、CustID 列です。
2 つの追加の関連データセットである CreditRisk - Credit Inquiries および CreditRisk - Tradeline Acccounts は、特徴量探索に使用されるセカンダリーデータセットです。
モデル構築が開始すると、DataRobotが EDA2 を実行し、新しく作成された特徴量がデータページに追加されます。データページには、生成されたすべてのプロジェクトデータ(新旧両方)に関するさまざまな情報が表示されます。
データセットの読み込み¶
次の手順では、AIカタログからプロジェクトにデータセットをロードする方法について説明します。
ヒント
この手順では、AIカタログを使用したデータセットを読み込む方法を示しています。開始するには、すべてのアセットがカタログ内にあることを確認してください。または、ドラッグアンドドロップによってデータセットをアップロードすることもできます。その場合、アップロードするすべてのデータセットがAIカタログに自動的に登録されます。
-
AIカタログからプライマリーデータセットを選択し、新しいプロジェクトを作成をクリックします。ターゲットを入力します。
-
データセットを追加をクリックして、1つ以上の追加のデータセットをプロジェクトに追加します。有効な特徴量探索プロジェクトでは、少なくとも 1つのセカンダリーデータセットが必要です。
-
関係性エディターの予測ポイント日付を指定ページで、オプションで予測ポイントとして使用する日付特徴量を選択します。プライマリーデータセットにおける日付/時刻特徴量は、特徴量の派生ウィンドウの参照日として機能します。
備考
プロジェクトの予測ポイントを既に指定している場合、予測ポイントを指定するステップは表示されません。
予測ポイントのアプリ内の説明については、例を表示を展開してください。
-
時間認識特徴量探索プロジェクトの 予測ポイントとして設定 をクリックするか、時間認識モデルでないプロジェクトの予測ポイントなしで続行をクリックします。
-
関係性エディターのデータセットを追加ページで、以下からデータを追加 の下にあるデータインポート方法を選択します。
この例では、AIカタログからデータセットを追加する方法を示します。
-
AIカタログ から 選択をクリックして、含めるデータセットを選択します。検索機能を使用すると、選択するデータセットを簡単に見つけることができます。終了したら、追加 をクリックします。
-
続行 をクリックして、選択を確定します。
ヒント
このページで選択したセカンダリーデータセットは直ちに設定に追加されます。続行 をクリックせずにページを再ロードしても、データは失われません。
関係性を定義ページにデータセットを表示します。
-
データセットにカーソルを合わせ、関連付けられたメタデータを表示します。
-
メニューをクリックして、詳細を表示またはデータセットを削除します。
詳細 を選択すると、AIカタログで実行するように、データセットに関連付けられているプロファイル、特徴量のリスト、バージョン履歴、およびコメントにアクセスできます。
ベストプラクティスは、このエディター内で引き続き関係性を定義することです。プロジェクトを続行 をクリックして開始画面に戻ることができます。
データセットが表示され、定義された関係性の数を表示できます。
いつでも 関係性を定義する をクリックして、関係性を定義する ページに戻ることができます。
関係性の定義¶
すべてのデータセットがロードされたら、関係性を定義する ページで関係性を定義します。プライマリーデータセットはキャンバス上に表示され、セカンダリセットは左側のウィンドウにリストされます。
関係性を定義するには:
-
セカンダリーデータセットをクリックして強調表示します。プライマリーセットにはプラス記号が追加されます。
-
プラス記号をクリックします。選択したセカンダリーデータセットがキャンバスに追加され、結合条件を定義する設定エディターが開きます。
[新しい関係性を作成する] ページの要素を次の表に示します。
要素 説明 結合用のセカンダリーデータセット 結合で使用するセカンダリーデータセットを設定します。ドロップダウンを使用して追加済みデータセットを変更します。変更は下のキャンバスに反映されます。 結合用のプライマリーデータセット 結合で使用するプライマリーデータセットを設定します。 提案された結合条件 対応するデータセットの結合条件(特徴量)を設定します(対応するデータセットが条件の上にリストされます)。DataRobotでは最大5つの条件が提示されます。それぞれの条件は編集可能です。ドロップダウンを使用して新しい特徴量を選択します。結合を削除するには、ごみ箱アイコン( )を使用します。
結合条件を追加する 手動結合設定オプションが提供されます。 保存 または 保存して時間認識を設定する 関係性の設定を保存します。日付特徴量がない場合、または予測ポイントを設定しなかった場合は、保存を選択します。プライマリーデータセットから予測ポイントを設定した場合、保存して時間対応を設定するボタンが表示されます。 キャンバス表示コントロール ズームインまたはズームアウトするか、デフォルトの表示サイズにリセットします。 データセットメニューオプション プライマリーまたはセカンダリーデータセットで実行できるさまざまなアクションへのアクセスを提供します 。 結合編集を起動 関係性エディターが開き、クリックした行で結合されたデータセット間の関係性を定義または変更できます。 プライマリーアイコン 標的のアイコンは、プライマリーデータセットであることを示します。 ツアーの起動 特徴量探索の設定の概要を説明する短いツアーが始まります。 プロジェクトを続ける 開始画面に戻り、時間認識設定の変更、高度なオプションの設定、モデリングモードの設定に加えて、モデリングプロセスを開始することができます。 -
すべてのセカンダリーデータセットを追加し、関係性設定を選択したら、保存をクリックして時間認識を設定します (または、時間認識でないプロジェクト用に 保存)。
プロジェクトが時間認識ではない場合、開始ページが表示されます。時間認識プロジェクトの場合、時間認識特徴量エンジニアリング ページが表示されます。
-
プロジェクトが時間認識である場合は、時間特徴量を選択 をクリックして、セカンダリーデータセットの時間インデックス特徴量を選択します。
-
特徴量派生ウィンドウ(FDW)を設定します。FDW は過去の値のローリングウィンドウであり、予測ポイント以前の特徴量を生成するために使用されます。FDWの始まりと終わりと設定します。この機能は、観測期間を定義します。この場合、30日以降、2日未満にはなりません。
各データセットに最大3つのFDWを設定できます。各ウィンドウは一意である必要があります。FDWを追加するには、ウィンドウを追加をクリックします。
設定したFDWは、キャンバス上のデータセットのタイルに反映されます。
こうした時間認識設定により、生成された特徴量が予測ポイント前に発生したデータに基づくことを担保します。詳細については、時間認識特徴量エンジニアリングを参照してください。
Snowflakeインテグレーション¶
DataRobotとSnowflakeのインテグレーションにより、この両方を使うユーザーは、有益な場合に、Snowflakeで計算を実行しながら、DataRobotでデータサイエンスプロジェクトを実行して、ワークロード性能を最適化できます。特徴量探索トレーニングと予測ワークフローは、(SQLを介して)関係性内結合、予測、フィルター操作をSnowflakeプラットフォームに押し下げます。Snowflakeデータベースでネイティブに結合を行うことで、DataRobotにロードする前にネットワーク全体に転送するため、データがより小さいデータセットにフィルタリングされます。データセットを小さくすることでプロジェクト実行時間を短縮できます。
Snowflakeとのインテグレーションを有効にするには、次の要件を満たしている必要があります。
- Snowflakeデータ接続が設定されている。
- すべてのセカンダリーデータセットがSnowflakeに保存されている。
- すべてのSnowflakeソースが同じウェアハウスに保存されている。
- すべてのデータセットがAIカタログで動的データセットとして設定されている。
- 使用中のスキーマのいずれかまたは使用中のデータベースのいずれかの
PUBLIC
スキーマへの書き込み権限がある。
上記の要件が満たされている場合、インテグレーションが自動的に確立され、SnowflakeアイコンとSnowflakeモードが有効になっていますが関係性を定義ページの上部に青く表示されます。
結合条件の設定¶
備考
結合を作成または変更する場合、特徴量タイプが一致する必要があります。サポートされるタイプは、数値、カテゴリー、および日付です。
データセット内のテーブルが適切に型設定されている場合、互換性のある特徴量が自動的に検出され、最大5つの「推奨」結合が作成されます。各結合キーに関連付けられたドロップダウンを使用して、推奨結合を変更できます。
結合条件を追加するをクリックして、手動で結合キーを作成することもできます。表示されるダイアログで、特徴量ドロップダウンを使用して、各データセットから結合特徴量を選択します。
その他のデータセットの追加¶
プロジェクトに複数のセカンダリデータセットがある場合は、保存した後にその他のデータセットを追加できます。関係性を定義するページから、以下の操作を行います。
-
別のデータセットを選択します。プライマリーデータセットとセカンダリーデータセットの両方にプラスアイコンが付いていることに注意してください。いずれかをクリックして、左側のウィンドウのデータセットとキャンバスのデータセットの間の関係性を定義します。データセットがキャンバスに追加されます。
-
以前のセカンダリーデータセットを追加する場合と同じ手順に従います。
- 方法を選択して、結合を追加します。
- 該当する場合、時間認識モデリングを設定します。
- 設定を保存します。
キャンバスに表示される各データセットは、データセット関連のタスクへのショートカットを含むメニューがあります。詳細については、プライマリーデータセットの使用とセカンダリーデータセットの使用参照してください。
プライマリーデータセットの操作¶
備考
メニューオプションを使用する前に、設定を保存してください。ページを離れるとき、保存されてない変更は失われます。
キャンバスから作業する場合、データセットタイルのメニューオプションを選択できます。プライマリーデータセットでは、関係性を追加することや予測ポイントを編集することができます。
関係を追加
以前に設定した関係がない場合、関係を追加を選択して 新しい関係性を作成する ページを開きます。これは、左側のリストからデータセットを選択して、プライマリーデータセットのキャンバスタイルのプラス記号をクリックする操作と同じです。ページを開いたら、ドロップダウンからセカンダリーデータセットを選択し、キャンバスに追加します。
予測ポイントを編集
予測ポイントを編集 を選択して、予測ポイントとして使用する異なる日付特徴量を選択します。
セカンダリーデータセットの操作¶
セカンダリデータセットを選択してキャンバスに移動すると、そのタイルでメニューオプションが使用できるようになります。次の表は、メニューから使用できるオプションを示しています。
オプション | 説明 |
---|---|
関係を追加 | 関係性エディターを開き、(左側のウィンドウで使用可能なものから)結合するデータセットを選択します。 |
エイリアスを編集 | データセットのエイリアスを設定できます。セカンダリーデータセット名がキャンバスに表示されます。エイリアスでは、左のデータセットリストまたは関係性エディターページの表示は変更されません。 |
データセットを設定 | データセット設定エディターが開きます。ここでは、データセットの詳細を設定できます。 |
時間認識を設定 | 時間認識特徴量エンジニアリング設定ダイアログが開きます。ここでは、セカンダリーデータセットの時間インデックスを選択することや、正しい日付/時間特徴量が選択されていることを確認することができます。 |
詳細 | クリックして AIカタログ 内のデータセットの 情報ウィンドウ を開きます。 |
削除 | 現在の関係性設定から、データセットおよびそのすべての関係性を削除します。データセットは引き続き設定で使用することが可能で、左側のパネルにリストされます。 |
セカンダリーデータセットの設定¶
セカンダリーデータセットのメニューから データセットを設定 を選択すると、データセットエディターが開きます。
ここでは以下の操作を行うことができます。
-
データセットのエイリアスを変更します。手動で設定されていない場合、ファイル名に基づいてエイリアスが自動的に生成されます。エイリアスを変更するには、ボックス内をクリックします。プライマリーデータセットのエイリアスは変更できません。
-
このプロジェクトに使用するスナップショットポリシー(最新、固定、または動的)を選択します。デフォルトでは、選択したスナップショットポリシーが予測時間に適用されます。
-
対応するデータセットに対して適用する特徴量セットを選択します。このオプションを使用し、関連する特徴量を選択してテーブルのサイズを制限します。AIカタログから新しい特徴量セットを作成できます。
関係性の品質評価¶
1つ以上のセカンダリーデータセットを設定した後、それらの関係性設定の品質をテストして、作成プロセスの早い段階で潜在的な問題を把握できます。関係性品質評価ツールは、EDA2の開始前に結合キー、データセットの選択、および時間認識設定を検証します。
設定を確認ボタンをクリックして、関係性の品質評価をトリガーします。
進行状況インジケーター(スピナーの読み込み)が各データセットと無効になっている設定を確認ボタンに表示され、評価が現在実行中であることを示します。
評価が完了すると、DataRobotはテストされたすべてのデータセットにマークを付けます。問題が特定されたものには黄色の警告アイコンが表示され、問題が特定されていないものには緑色のチェックマークが表示されます。
関係性評価
プロジェクトタイプによって、DataRobotは関係性エンリッチメントレート、ウィンドウ設定、最新のデータを評価します。それぞれ、以下の表に説明されています。
カテゴリ | 説明 | 解決方法 | プロジェクトタイプ |
---|---|---|---|
エンリッチメントレート | プライマリーテーブルの行にマッピングされるセカンダリーデータセットの行の数を、パーセンテージで素早く判断できるようになります。 | データセットと関係性を確認します。 | すべて |
ウィンドウ設定 | 指定したFDW内のプライマリーデータセットにマッピングされるセカンダリーデーセット内の行の数を決定します。 | ウィンドウ設定を展開すると、その他の行が表示されます。 | 時間認識 |
最新のデータ | セカンダリーおよびプライマリーデータセットの最小および最大時間インデックスを比較して、セカンダリーデータセットが古いかどうかを確認します。 | 選択された特徴量セットとスナップショットポリシーを確認します。 | 時間認識 |
評価が動的スナップショットポリシーがあるJDBCソースに対して、常に更新されます。
次の式を使用してDataRobotがエンリッチメントレートを計算します。
(rows_of_primary_that_can_be_mapped_to_secondary
/ total_rows_of_primary
) x 100
警告アイコンを選択して、提案された潜在的な修正を含む問題のサマリーを表示します。評価中に特定された問題のサマリーがウィンドウの上部に表示されます。
詳細レポートを開くには、右側のオレンジの矢印をクリックします。DataRobotがカテゴリーごとに評価を分割し、問題を診断するための追加情報を提供します。セカンダリーデータセットに複数のFDWがある場合、詳細なレポートがレポートごとに作成されます。
警告を解決するには、各警告の下に表示されるオレンジのリンク(データセットの確認、関係性の確認、またはウィンドウ設定の確認)をクリックします。関係性エディターの上部にペインが表示され、関係性設定を変更できます。
モデル構築が開始され、EDA2が完了した後、データ > 特徴量探索タブで最新の関係性の品質評価を表示できます。
データセットの詳細を表示¶
以下のいずれかの方法で関係性エディターから直接データセットの詳細にアクセスできます:
データセットタイルでは、データセット名の下の線にカーソルを合わせると、そのデータセットのメタデータが表示されます。
データセットタイルの右上にあるメニューアイコンをクリックして、詳細を選択し、AIカタログの情報ページを開きます。
特徴量エンジニアリング管理の設定¶
プロジェクトを開始する前に、特徴量エンジニアリングの管理を設定するオプションがあります:
-
関係性の定義ページの設定歯車をクリックします。
-
特徴量エンジニアリングタブで、新しい特徴量を生成するときにDataRobotが行う変換を選択します。
ヒント
オプションにカーソルを合わせて、表示される変換について学習します。
-
変更を保存をクリックします。
プロジェクトの開始¶
-
関係性の定義が完了したら、プロジェクトを続ける をクリックして 開始画面 に戻ります。
セカンダリーデータセットセクションでは、セカンダリーデータセットの詳細に関するビジュアルキューが表示されます。
ビジュアルキュー 示す 青いテキストを含むデータセット データセットは、プロジェクトの一部で使用中です。 ホワイトテキストを含むデータセット データセットはロードされましたが、関係性の定義の一部はロードされていません。 リンクされたデータセット このデータセットでリンクされたデータセットの数。 データセットと関係性の数 セカンダリーデータセットと、定義された関連性の数。 -
開始 をクリックします。
DataRobotは、EDA2の一部として特徴量エンジニアリングを実行し、モデルのブループリントの生成を開始します。
資産の共有¶
その他のDataRobotプロジェクトと同様に、(権限に応じて)特徴量探索プロジェクトを共有できます。共有を許可する役割には、さまざまな権限を割り当てることができます。エンジニアリンググラフとデータセットを共有する機能も、特徴量探索プロジェクトに特有の機能です。
プロジェクトを共有するには、シェアアイコン()をクリックします。受信者がプロジェクトと関わるには、追加のアセットにアクセスする必要があります。デフォルトでは、アセットは共有されません。関係性とデータセットの共有を有効にします。そうではない場合、警告が表示されます。
割り当てられた役割に加えて、プロジェクトユーザーのリストには、プロジェクトアセットが共有されているかどうかも示されます。