Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量探索プロジェクト

特徴量探索は、データセットとそのデータセット内の特徴量の関係性に基づきます。 DataRobotは、このような関係性を構築および視覚化できる直感的な関係性エディターを提供します。 最終的な成果物として、これらのリンクから生成される多くの追加の特徴量が得られます。 派生した特徴量によって、より精度の高いモデルを構築し、より精度の高い予測をすることができます。 グラフおよび含まれるデータセットがDataRobotの特徴量探索エンジンによって分析され、特徴量エンジニアリング「レシピ」が決定されます。そのレシピから、トレーニングおよび予測に使用するセカンダリー特徴量が生成されます。

備考

データセットのサイズについては、特徴量探索のファイル要件を参照してください。

特徴量探索を開始するには、次のセクションを参照してください。 または、以下に関する詳細な手順にスキップします。

  1. Add datasets to a project.
  2. Create relationships.
  3. 結合条件の設定
  4. 関係性設定の品質の評価
  5. Configure Feature Discovery settings.
  6. プロジェクトの開始

また、時間認識の特徴量エンジニアリング派生した特徴量、および派生した特徴量を持つモデルの予測の作成をさらに確認することもできます。

特徴量探索の使用を開始する

ほとんどの場合、特徴量探索プロジェクトを開くために必要なものは、次の点を含むシンプルなプライマリーデータセットです。

  • ターゲット(予測する列)。
  • データセットに追加の関連データセットを関連づけるための識別子(customer_idtransaction_idなど)。 このキーは、データセット結合の基盤として機能します。
  • An optional time index—a date feature in the primary dataset—to support time-aware Feature Discovery. 日付特徴量は、新しい特徴量を作成する予測ポイントとして使用されます。

プライマリーデータセットの各レコードは、望ましい分析単位を表します。 このプライマリーデータセットから、DataRobotは、セカンダリーデータセットと呼ばれる追加のデータセットとの関係性を作成する手順をガイドします。

セカンダリーデータセットには、プライマリーデータセットを強化できる可能性のある特徴量があります。 プライマリーデータセットとセカンダリーデータセットを追加したときに、両方のデータセットで1対1の関係性が見られる場合もありますが、これは必須ではありません。 ほとんどの場合、DataRobotはセカンダリーデータセット内の特徴量を集約して要約し、そこからプライマリーデータセットを強化します。

ユースケースのサンプル

以下のステップでは、融資が貸し倒れするかどうかを予測するために DataRobotが複数のデータセットから新しい特徴量を自動的に探索する仕組みについて説明します。 プライマリーデータセットのCreditRisk - Loan Applicationsでは、is-bad列がプロジェクトのターゲットです。 データセットの関係は、CustID列です。

2つの追加の関連データセットである CreditRisk - Credit InquiriesおよびCreditRisk - Tradeline Acccountsは、特徴量探索に使用されるセカンダリーデータセットです。

モデル構築が開始するとEDA2が実行され、新しく作成された特徴量がデータページに追加されます。 データページには、生成されたすべてのプロジェクトデータ(新旧両方)に関するさまざまな情報が表示されます。

データセット追加

AIカタログからプライマリーデータセットを選択し、新しいプロジェクトを作成をクリックします。 Then, enter the target feature.

備考

この手順では、AIカタログを使用したデータセットを読み込む方法を示しています。開始するには、すべてのアセットがカタログ内にあることを確認してください。 または、ドラッグアンドドロップによってデータセットをアップロードすることもできます。 その場合、アップロードするすべてのデータセットがAIカタログに自動的に登録されます。

A valid Feature Discovery project requires at least one secondary dataset—the following tabs describe how to load additional datasets into the project from both the Start page and the relationship editor:

  1. On the Start page, click Add datasets to add one or more additional datasets to the project.

  2. 関係性エディター予測ポイント日付を指定ページで、オプションの予測ポイントとして使用する日付特徴量を選択します。 プライマリーデータセットにおける日付/時刻特徴量は、特徴量の派生ウィンドウの参照日として機能します。

    備考

    プロジェクトの予測ポイントを既に指定している場合、予測ポイントを指定するステップは表示されません。

    予測ポイントのアプリ内の説明については、例を示します

  3. 時間認識特徴量探索プロジェクトの予測ポイントとして設定をクリックするか、時間認識モデルでないプロジェクトの予測ポイントなしで続行をクリックします。

    備考

    Although you can select the same date feature used for the out-of-time validation (OTV) partition as the prediction point, clicking Continue without prediction point automatically uses the OTV partition feature when generating new features.

    If you add or edit the prediction point, DataRobot accounts for that change when generating new features.

  4. 関係性エディターデータセットを追加ページで、以下からデータを追加の下にあるデータインポート方法を選択します。

    この例では、AIカタログからデータセットを追加する方法を示します。

  5. AIカタログから選択をクリックして、含めるデータセットを選択します。 検索機能を使用すると、選択するデータセットを簡単に見つけることができます。 終了したら、追加をクリックします。

  6. 続行をクリックして、選択を確定します。 このページで選択したセカンダリーデータセットは直ちに設定に追加されるので、続行をクリックせずにページを再ロードすると、データは失われません。

    関係性を定義ページにデータセットを表示します。

ベストプラクティスとして、このエディター内で引き続き関係性を定義することをお勧めします。 プロジェクトを続行をクリックして開始画面に戻ることができます。

データセットが表示され、定義された関係性の数を表示できます。

いつでも 関係性を定義するをクリックして、関係性を定義するページに戻ることができます。

プロジェクトに複数のセカンダリーデータセットがある場合は、保存した後にその他のデータセットを追加できます。 関係性を定義するページから、以下の操作を行います。

  1. Click Add datasets and select a data import method.

    この例では、AIカタログからデータセットを追加する方法を示します。

  2. AIカタログから選択をクリックして、含めるデータセットを選択します。 検索機能を使用すると、選択するデータセットを簡単に見つけることができます。 終了したら、追加をクリックします。

    関係性を定義ページにデータセットを表示します。

キャンバスに表示される各データセットは、データセット関連のタスクへのショートカットを含むメニューがあります。 See details of working with primary datasets and secondary datasets.

After adding secondary datasets to your project, define the relationships between the datasets.

Snowflakeインテグレーション

DataRobotとSnowflakeのインテグレーションにより、この両方を使うユーザーは、有益な場合に、Snowflakeで計算を実行しながら、DataRobotでデータサイエンスプロジェクトを実行して、ワークロード性能を最適化できます。 特徴量探索トレーニングと予測ワークフローは、(SQLを介して)関係性内結合、予測、フィルター操作をSnowflakeプラットフォームに押し下げます。 Snowflakeデータベースでネイティブに結合を行うことで、DataRobotにロードする前にネットワーク全体に転送するため、データがより小さいデータセットにフィルタリングされます。 データセットを小さくすることでプロジェクト実行時間を短縮できます。

Snowflakeとのインテグレーションを有効にするには、次の要件を満たしている必要があります。

  • Snowflakeデータ接続が設定されている。
  • すべてのセカンダリーデータセットがSnowflakeに保存されている。
  • すべてのSnowflakeソースが同じウェアハウスに保存されている。
  • すべてのデータセットがAIカタログで動的データセットとして設定されている。
  • 使用中のスキーマのいずれかまたは使用中のデータベースのいずれかのPUBLICスキーマへの書き込み権限がある。

If the above requirements are met, DataRobot automatically establishes the integration and displays the Snowflake icon and Snowflake mode enabled, in blue, at the top of the Define Relationships page.

データセットの詳細を表示

以下のいずれかの方法で関係性エディターから直接データセットの詳細にアクセスできます。

データセットタイルでは、データセット名の下の線にカーソルを合わせると、そのデータセットのメタデータが表示されます。

データセットタイルの右上にあるメニューアイコンをクリックして、詳細を選択し、AIカタログ情報ページを開きます。 From here you can access the profile, feature lists, relationships, version history, and comments associated with the dataset.

You can also delete the dataset from this menu.

関係性を定義

すべてのデータセットがロードされたら、関係性を定義するページで関係性を定義します。 プライマリーデータセットはキャンバス上に表示され、セカンダリーセットは左側のウィンドウにリストされます。 After establishing a relationship between two datasets, you can define the relationship by setting join conditions and feature derivation windows (FDW) for time-aware feature engineering.

関係性を定義するには:

  1. セカンダリーデータセットをクリックして強調表示します。プライマリーセットにはプラス記号が追加されます。

  2. プラス記号をクリックします。 DataRobot adds the selected secondary dataset to the canvas and opens the configuration editor.

    次の表では、新しい関係性を作成するページの要素について説明します。

    要素 説明
    結合用のセカンダリーデータセット 結合で使用するセカンダリーデータセットを設定します。 ドロップダウンを使用して追加済みデータセットを変更します。 変更は下のキャンバスに反映されます。
    結合用のプライマリーデータセット 結合で使用するプライマリーデータセットを設定します。
    提案された結合条件 データセットの結合条件(特徴量)を設定します(対応するデータセットが条件の上にリストされます)。 DataRobotでは最大5つの条件が提示されます。それぞれの条件は編集可能です。 ドロップダウンを使用して新しい特徴量を選択します。結合を削除するには、ごみ箱アイコン()を使用します。
    結合条件を追加する 手動結合設定オプションが提供されます。
    保存または保存して、時間認識を設定します 関係性の設定を保存します。 日付特徴量がない場合、または予測ポイントを設定しなかった場合は、保存を選択します。 プライマリーデータセットから予測ポイントを設定した場合、保存して時間対応を設定するボタンが表示されます。
    キャンバス表示コントロール ズームインまたはズームアウトするか、デフォルトの表示サイズにリセットします。
    データセットメニューオプション プライマリーまたはセカンダリーデータセットで実行できるさまざまなアクションへのアクセスを提供します 。
    結合編集を起動 関係性エディターが開き、クリックした行で結合されたデータセット間の関係性を定義または変更できます。
    プライマリーアイコン 標的のアイコンは、プライマリーデータセットであることを示します。
    ツアーの起動 特徴量探索の設定の概要を説明する短いツアーが開きます。
    プロジェクトを続ける 開始画面に戻り、時間認識設定の変更、高度なオプションの設定、モデリングモードの設定に加えて、モデリングプロセスを開始することができます。

結合条件の設定

データセット内のテーブルが適切に書式設定されている場合、互換性のある特徴量が自動的に検出され、最大5つの「推奨」結合が作成されます。 各結合キーに関連付けられたドロップダウンを使用して、推奨結合を変更できます。

結合条件を追加するをクリックして、手動で結合キーを作成することもできます。 表示されるダイアログで、特徴量ドロップダウンを使用して、各データセットから結合特徴量を選択します。

Join feature type compatibility and restrictions

See the table below for compatible join types when creating or modifying joins in the relationship editor:

特徴量タイプ Compatible join types
数値 数値、カテゴリー
カテゴリー カテゴリ、数値、テキスト
テキスト テキスト、カテゴリ
日付 日付

The following feature types cannot be used as join keys:

  • 集計されたカテゴリー型特徴量
  • Length
  • 通貨
  • パーセンテージ
  • 音声
  • 画像
  • ドキュメント

すべてのセカンダリーデータセットを追加し、関係性設定を選択したら、保存をクリックして時間認識を設定します または、時間認識でないプロジェクト用に保存

  • If the project is not time-aware, the Start page displays.
  • If the project is time-aware, the Time-aware feature engineering page displays where you can configure FDWs.

Set feature derivation windows

After adding secondary datasets to a time-aware project, you can define the FDWs—a rolling window of past values used to generate features before the prediction point. The FDW constrains the time history—in the example below, no further back than 30 days, no more recent than 2 days.

  1. Click Select time feature to choose a time index feature for the secondary dataset.

  2. Configure the FDWs. 各データセットに最大3つのFDWを設定できます、各ウィンドウは一意である必要があります。 FDWを追加するには、ウィンドウを追加をクリックします。

    設定したFDWはキャンバス上のデータセットのタイルに反映されます。

    こうした時間認識設定により、生成された特徴量が予測ポイント前に発生したデータに基づくことを担保します。 詳細については、時間認識特徴量エンジニアリングを参照してください。

Work with datasets

Once a dataset is added to the canvas, you can modify and refine its configuration. Primary datasets appear on the canvas by default, but all secondary datasets must be added.

プライマリーデータセット

備考

メニューオプションを使用する前に、設定を保存してください。 ページを離れるとき、保存されてない変更は失われます。

キャンバスから作業する場合、データセットタイルのメニューオプションを選択できます。 プライマリーデータセットでは、関係性を追加することや予測ポイントを編集することができます。

オプション 説明
関係を追加 以前に設定した関係がない場合、関係を追加を選択して新しい関係性を作成するページを開きます。 これは、左側のリストからデータセットを選択してプライマリーのキャンバスタイルのプラス記号をクリックする操作と同じです。 ページが開いたらドロップダウンからセカンダリーデータセットを選択し、キャンバスに追加します。
予測ポイントを編集 予測ポイントを編集を選択して、予測ポイントとして使用する異なる日付特徴量を選択します。

セカンダリーデータセット

セカンダリーデータセットを選択してキャンバスに移動すると、そのタイルでメニューオプションが使用できるようになります。 次の表は、メニューから使用できるオプションを示しています。

オプション 説明
関係を追加 関係性エディターを開き、(左側のウィンドウで使用可能なものから)結合するデータセットを選択します。
エイリアスを編集 データセットのエイリアスを設定できます。 セカンダリーデータセット名がキャンバスに表示されます。 エイリアスでは、左ペインのデータセットリストまたは関係性エディターページの表示は変更されません。
データセットを設定 データセット設定エディターが開きます。ここでは、データセットの詳細を設定できます。
時間認識を設定 時間認識特徴量エンジニアリング設定ダイアログが開きます。ここでは、セカンダリーデータセットの時間インデックスを選択するか、正しい日付/時刻特徴量が選択されていることを確認することができます。
詳細 クリックしてAIカタログのデータセットの情報ウィンドウを開きます。
削除 現在の関係性設定から、データセット(およびそのすべての関係性)を削除します。 データセットは引き続き設定で使用することが可能で、左側のパネルにリストされます。

セカンダリーデータセットの設定

セカンダリーデータセットのメニューから データセットを設定を選択すると、データセットエディターが開きます。

ここでは以下の操作を行うことができます。

  • データセットのエイリアスを変更します。 手動で設定されていない場合、ファイル名に基づいてエイリアスが自動的に生成されます。 エイリアスを変更するには、ボックス内をクリックします(プライマリーデータセットのエイリアスは変更できません)。

  • このプロジェクトに使用するスナップショットポリシー(最新、固定、または動的)を選択します。 デフォルトでは、選択したスナップショットポリシーが予測時に適用されます。

  • 対応するデータセットに対して適用する特徴量セットを選択します。 このオプションを使用し、関連する特徴量を選択してテーブルのサイズを制限します。 AIカタログから新しい特徴量セットを作成できます。

関係性の品質評価

1つ以上のセカンダリーデータセットを設定した後、それらの関係性設定の品質をテストして、作成プロセスの早い段階で潜在的な問題を把握できます。 関係性品質評価ツールは、EDA2の開始前に結合キー、データセットの選択、および時間認識設定を検証します。

設定を確認ボタンをクリックして、関係性の品質評価をトリガーします。

進行状況インジケーター(スピナーの読み込み)が各データセットと、無効になっている設定を確認ボタンに表示され、評価が現在実行中であることを示します。

評価が完了すると、DataRobotはテストされたすべてのデータセットにマークを付けます。 問題が特定されたものには黄色の注意アイコンが表示され、問題が特定されていないものには緑色のチェックマークが表示されます。

Deep dive: Relationship assessments

プロジェクトタイプによって、DataRobotは関係性エンリッチメントレート、ウィンドウ設定、最新のデータを評価します。それぞれ、以下の表に説明されています。

カテゴリー 説明 解決方法 プロジェクトタイプ
エンリッチメントレート プライマリーテーブルの行にマッピングされるセカンダリーデータセットの行の数を、パーセンテージで素早く判断できるようになります。 データセットと関係性を確認します。 すべて
ウィンドウ設定 指定したFDW内のプライマリーデータセットにマッピングされるセカンダリーデーセット内の行の数を決定します。 ウィンドウ設定を展開すると、その他の行が表示されます。 時間認識
最新のデータ セカンダリーおよびプライマリーデータセットの最小および最大時間インデックスを比較して、セカンダリーデータセットが古いかどうかを確認します。 選択された特徴量セットとスナップショットポリシーを確認します。 時間認識

評価が動的スナップショットポリシーがあるJDBCソースに対して、常に更新されます。

次の式を使用してDataRobotがエンリッチメントレートを計算します。

(rows_of_primary_that_can_be_mapped_to_secondary / total_rows_of_primary) x 100

注意アイコンを選択して、提案された潜在的な修正を含む問題のサマリーを表示します。 評価中に特定された問題のサマリーがウィンドウの上部に表示されます。

詳細レポートを開くには、右側のオレンジの矢印をクリックします。 DataRobotがカテゴリーごとに評価を分割し、問題を診断するための追加情報を提供します。 セカンダリーデータセットに複数のFDWがある場合、詳細なレポートがレポートごとに作成されます。

注意を解決するには、各注意の下に表示されるオレンジのリンク(データセットの確認、関係性の確認、またはウィンドウ設定の確認)をクリックします。関係性エディターの上部にペインが表示され、関係性設定を変更できます。

モデル構築が開始され、EDA2が完了した後、データ > 特徴量探索タブで最新の関係性の品質評価を表示できます。

特徴量探索の設定

The Feature Discovery process uses a variety of heuristics to determine the list of features to derive in a DataRobot project. In Feature Discovery Settings, you can control which transformations DataRobot will try when deriving new features (feature engineering controls), as well as set DataRobot to automatically remove redundant features and those with low impact (feature reduction).

To access Feature Discovery Settings, click the settings gear on the Define Relationships page.

特徴量エンジニアリングの管理

特徴量エンジニアリングの管理を設定し、DataRobotで特徴量エンジニアリングを実行する方法に影響を与えることができます。 次の目的でこれを使用できます。

  • ドメイン知識を使用して、特徴量エンジニアリングのプロセスを導き、派生した特徴量の品質を向上します。
  • 特徴量エンジニアリングの速度を上げます。
  • より多くの特徴量を派生することで、精度を向上させます。たとえば、カテゴリー統計、歪度、尖度を使用します。
  • 複雑すぎてビジネス上の利害関係者に説明できない特定の変換を除外します。 モデリングの後、これらの特徴量を除外できますが、それではモデリングプロセスが複雑になってしまいます。

EDA2の前に、関係性エディターの特徴量エンジニアリングオプションを設定します。

  1. In Feature Discovery Settings, click the Feature Engineering tab. Consider which feature engineering transformations make the most sense for your project and select the ones you want DataRobot to try when deriving new features.

    変換にカーソルを合わせて、それを説明するツールヒントを表示できます。

    Latest vs. Latest within window

    | 変換 | 説明 | デフォルト | ---------- | ----------- | | 最新 | Generates new features by exploring all historical data up until the end point of any defined FDWs. Note that this method ignores all FDW start points. | 無効 | | ウィンドウ内の最新の値 | Generates new features within the defined FDW. For time-aware feature engineering, only the data within the FDW is required when making predictions. | 有効 |

  2. 変更を保存をクリックします。

特徴量の削減

特徴量探索では、DataRobotが新しい特徴量を作成し、インパクトの低い特徴量や重複した特徴量を削除します。 これを特徴量の削減といいます。 また、以下のいずれかの方法で特徴量の削減を無効にするとその代わりに、モデル構築時にすべての特徴量を含めることができます。

関係性設定(関係性を定義 ページ)で、設定()の歯車をクリックします。 特徴量の削減タブを選択し、特徴量削減の管理を使用するをオフにします。

プロジェクトの開始

  1. 関係性の定義が完了したら、プロジェクトの続行をクリックしてスタート画面に戻ります。

    セカンダリーデータセットセクションでは、セカンダリーデータセットの詳細に関するビジュアルキューが表示されます。

    ビジュアルキュー 示す
    青いテキストを含むデータセット データセットは、プロジェクトの一部で使用中です。
    ホワイトテキストを含むデータセット データセットはロードされましたが、関係性の定義の一部はロードされていません。
    リンクされたデータセット このデータセットでリンクされたデータセットの数。
    データセットと関係性の数 セカンダリーデータセットと、定義された関連性の数。
  2. 開始をクリックします。

    DataRobotは、EDA2の一部として特徴量エンジニアリングを実行し、モデルのブループリントの生成を開始します。

アセットの共有

その他のDataRobotプロジェクトと同様に、(権限に応じて)特徴量探索プロジェクトを共有できます。 共有を許可するユーザーには、さまざまな権限を割り当てることができます。 エンジニアリンググラフとデータセットも共有する機能は、特徴量探索プロジェクトに特有の機能です。

プロジェクトを共有するには、シェアアイコン()をクリックします。 受信者がプロジェクトと関わるには、追加のアセットにアクセスする必要があります。 デフォルトでは、アセットは共有されません。 関係性とデータセットの共有を有効にします。そうでない場合、注意が表示されます。

割り当てられた役割に加えて、プロジェクトユーザーのリストには、プロジェクトアセットが共有されているかどうかも示されます。


更新しました December 21, 2022
Back to top