Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量セットの操作

特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 自動作成されたセットの1つを使用するか、データページまたはメニューから手動で特徴量を追加することができます。 (一部の)特徴量セットのレビュー、名前変更、および削除を行うこともできます。 モデリングに使用されるセットは、デフォルトのモデリング特徴量セットと呼ばれます。 これは、[開始]ボタンをクリックしたときに選択される特徴量セットです。

選択内容を上書きしない場合、モデルの構築では以下のいずれかのセットが使用されます。

  • モデリングにおける潜在的に有用な情報を提供する全ての特徴量(有用な特徴量セット)。
  • ターゲットリーケージのリスクを伴う特徴量を削除した上で、モデリングを行う際に潜在的に有用な情報を提供する全ての特徴量(有用な特徴量からリーケージを除去したセット)。

EDA2の前または後に、特徴量を選択して新しい特徴量セットを作成できます。 ターゲット特徴量は、すべての特徴量セットに自動的に追加されます。 作成した新しい特徴量セットは、特徴量セットドロップダウンで使用できるようになります。 アクティブな特徴量セットが青くハイライトされます。このセットがページの特徴量の表示を制御します。

プロジェクトのデータタブは、デフォルトですべての特徴量に設定されています。これは実際の特徴量セットではなく、データセット内の個々の特徴量を表示する方法です。

特徴量セットの選択

DataRobotによって割り当てられたセット以外の特徴量セットを使用するには、デフォルトのモデリングセットとして使用するセットを特徴量セットドロップダウンから選択します。

To select a different feature list:

  1. Scroll down to the Project Data tab.

    By default, the All Features list displays.

  2. Click the Feature List dropdown menu and select a new feature list (Informative Features in this example) list.

    The Informative Features list displays below the Start button.

特徴量セットの作成

自動作成された特徴量セットを使用しない場合は、カスタム特徴量セットを作成してモデルのトレーニングを行い、モデルが向上するかどうかを確認します。 カスタム特徴量セットは、データページまたはメニューから作成できます。 さらに、特徴量のインパクトタブから特徴量のインパクトに基づいて特徴量セット(冗長な特徴量が除外された特徴量セットなど)を作成できます。 これらの特徴量セットの管理は後で特徴量セットタブから行うことができます。

データページからの特徴量セットの作成

データページから特徴量セットを作成するには:

  1. プロジェクトのデータタブを選択します。
  2. (Optional) From the Feature List dropdown select All Features to display all columns (features) in your dataset.

  3. 特徴量名の左側のチェックボックスを使用して、特徴量のセットを選択します。 最初の特徴量を選択すると、特徴量セットを作成リンクがアクティブになります。

  4. 新しいセットに追加する各特徴量を選択して、特徴量セットを作成をクリックします。

    表示されるダイアログボックスに名前を入力して、特徴量セットを作成をクリックします。 ページが更新され、新しいセットに属する特徴量だけが表示されます(特徴量セットドロップダウンで青でハイライトされます)。

ヒント

ボックスをクリックするとすべて選択できます。選択した特徴量を選択解除するには、選択した特徴量をクリックします。

Create feature lists from an existing list

Use the menu to select an existing feature list, then add or remove features to create a new feature list.

  1. Click Menu on the top left of the Project Data tab and click Select features by feature list.

    備考

    特徴量セット名をクリックすると、表示されたページで、選択した特徴量セットに属するすべての特徴量(特徴量セットドロップダウンで設定されます)が選択されます。

  2. Add or remove features using the check boxes to the left of the feature names.

  3. Click + Create feature list and enter the new feature list name to save your custom feature list. 新しいセットは、(特徴量セットドロップダウンから)プロジェクト全体での選択に使用できます。

Filter and select by var type

Filter and select features by variable data type.

  1. Click Menu on the top left of the Project Data tab and click Select features by var type.

  2. Add or remove features using the check boxes to the left of the feature names.

  3. Click + Create feature list and enter the new feature list name to save your custom feature list.

特徴量セットタブ

特徴量セットタブ(データページ内)を使用して、特徴量セットを管理できます。 このタブには、DataRobotで作成した特徴量セットやカスタム特徴量セットのサマリー(名前、特徴量の数、モデルの数、作成日、および説明)が表示されます。セット(の一部)の削除または名前変更を行ってセットを整理して、混乱を避けることができます。 名前の横に表示されるロック()は、そのセットを削除できないことを示します。

モデルを構築すると、特徴量セットには、自動作成されたセット(1)およびカスタムセット(2)が含まれます。

特徴量セットの管理

DataRobotには、特徴量セットを操作するためのツールがいくつか搭載されています。 セットの作成方法(自動または手動)、またはセットがリーダーボード上でモデルの作成に使用されたかどうかに応じて、アクションの動作が異なることがあります。

次の表にアクションを示します。

アイコン 説明
選択した特徴量セットの一部である特徴量をCSVファイルとしてエクスポートします。
選択した特徴量セットをプロジェクトデータタブで開きます。
セット名および説明を編集できるダイアログが表示されます。 (自動作成された特徴量セットの説明は変更できますが、名前は変更できません。)*
選択した特徴量セットを使用してオートパイロットを再実行します。*
または 選択したセットを削除します(またはセットが削除できないことを示します)。 自動作成された特徴量セットは削除できません。*

* 特徴量セットの削除または名前変更、およびオートパイロットの再実行を行うには、ユーザーレベル以上のプロジェクトアクセスが必要です。

ヒント

特徴量セットに対する特徴量の追加や削除を行うことはできません。 その代わりに、目的のすべての特徴量で新しい特徴量セットを作成してください。

特徴量セットの削除

特徴量セットを削除すると、プロジェクト内で、そのセットで構築されたモデルも削除されます。 削除できるのはカスタム特徴量だけです(名前の横にが表示されている特徴量は削除できません)。 モデリング中のカスタム特徴量を削除するオプションをクリックすると、影響を受けるモデルの数を示す注意が表示されます。

以下の特徴量セットでは、削除機能を使用できません。

  • 自動作成された特徴量セット。
  • プロジェクトのデフォルトのモデリングセット。
  • プロジェクトの単調制約特徴量セットとして設定された特徴量セット。
  • 時系列プロジェクトのモデリングデータセットを作成する入力特徴量セットとして使用される特徴量セット。
  • モデルデプロイで使用されている特徴量セット(モデルおよびその特徴量セットはデプロイを削除するまで削除できません)。

Edit names and descriptions

カスタム特徴量セットを作成するとき、最初に表示されるダイアログで名前を付けます。 特徴量セットタブから、セットに説明を追加できます。 その説明を追加する場合、または既存の説明を編集する場合、セットをハイライトして鉛筆アイコン()をクリックします。

DataRobotで自動作成されたセットの説明は変更できますが、名前は変更できません。

Rerun Autopilot on a feature list

After you build your models, you rerun Autopilot from the Feature Lists tab. This is helpful if you customized a feature list after running Autopilot and want to generate additional models.

備考

プロジェクトのモデルの構築中にオートパイロットを再実行すると、現在実行している特徴量セットが中断(その特徴量セットでの新規モデルの構築が停止)され、選択したセットを使用してオートパイロットが最初から再実行されます。

This is the same action as rerunning Autopilot from the Configure modeling settings link available in the right-panel Worker Queue.

To rerun Autopilot with a custom feature list:

  1. Create a custom feature list.

  2. On the Data tab, click the Feature Lists tab.

  3. Click the menu to the right of the feature list you want to use to build new models and select Rerun Autopilot.

  4. In the Rerun Modeling window, select the Modeling mode and click Rerun.

自動作成された特徴量セット

DataRobotは自動的に各プロジェクトでいくつかの特徴量セットを作成します。 以下の点に注意してください。

  • 時系列特徴量セットは、AutoML特徴量セットとは異なります。
  • 交互作用の検索から作成された特徴量については、異なる特徴量セットになります(プラス(+)記号が付加されます)。
  • プロジェクトのターゲット特徴量は、すべての特徴量セットに自動的に追加されます。

すべてのセットがプロジェクトに適用されるわけではありませんが、以下では自動的に作成された特徴量セットについて説明します。

特徴量セット 説明
All Features (default) Includes all dataset features; performs no feature engineering.
有用な特徴量 The default feature list if DataRobot does not detect target leakage. このリストには、一般化が可能なモデルの構築に有用な情報が含まれているかどうかを判断する「合理性」チェックに合格する特徴量がる組まれます。 たとえば、有用な情報が少ない、または重複する(重複列、すべてが同一値の列や、同一のリファレンスIDの列など)、値の数が少なすぎるなどと判断された特徴量は除外されます。 有用な特徴量は、特徴量セットの一番上に表示されます。
有用な特徴量 - リーケージ除去済 The default feature list if DataRobot detects target leakage. このセットでは、ターゲットリーケージを発生させるリスクのある特徴量およびモデリングに有用な情報を提供しない(またはほとんど提供しない)特徴量が除外されます。 何が除外されたかを判断するには、データテーブルのすべての特徴量を選択した状態で、ラベル付けされた特徴量を確認できます。
元の特徴量 All features in the dataset, excluding user-derived features and including those excluded from the Informative Features list (e.g., duplicates, high missing values).
有用性上位の選抜 Features that meet a certain threshold (an ACE score above 0.005) for non-linear correlation with the selected target. 有用な特徴量セットの各エントリーに関して、ターゲットに対する特徴量の個々の関係性が計算されます。 このセットは、EDA2が完了するまで使用できません。
DataRobotで削減した特徴量 A subset of features, selected based on the Feature Impact calculation of the best non-blender model on the Leaderboard. DataRobotでは、このDRの削減済み特徴量セットを含む最高の非アンサンブルモデルが再トレーニングされ、新規モデルが作成されます。 元のモデルと新しいモデルが比較され、より優れたモデルが選択されます。このモデルは、モデルを推奨する目的で、より高いサンプルサイズで再トレーニングされます。 DRの削減済み特徴量は、ほとんどの場合、モデルの累積インパクトの95%を占める特徴量で構成されます。 この数値が100以上の場合、上位100の特徴量だけが含まれます。 プロジェクトで冗長な特徴量の識別がサポートされている場合、DRの削減済み特徴量から冗長な特徴量が除外されます。 このセットは クイックモードでは作成されないことに注意してください。

特徴量セットでなくても(モデル構築で使用できなくても)、すべての特徴量を選択すると、データセット内のすべての列に加えて、追加の変換済み特徴量がプロジェクトのデータにリストされます。


更新しました February 20, 2024