特徴量セットの操作¶
特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。 自動作成されたセットの1つを使用するか、データページまたはメニューから手動で特徴量を追加することができます。 (一部の)特徴量セットのレビュー、名前変更、および削除を行うこともできます。 モデリングに使用されるセットは、デフォルトのモデリング特徴量セットと呼ばれます。 これは、[開始]ボタンをクリックしたときに選択される特徴量セットです。
選択内容を上書きしない場合、モデルの構築では以下のいずれかのセットが使用されます。
- モデリングにおける潜在的に有用な情報を提供する全ての特徴量(有用な特徴量セット)。
- ターゲットリーケージのリスクを伴う特徴量を削除した上で、モデリングを行う際に潜在的に有用な情報を提供する全ての特徴量(有用な特徴量からリーケージを除去したセット)。
EDA2の前または後に、特徴量を選択して新しい特徴量セットを作成できます。 ターゲット特徴量は、すべての特徴量セットに自動的に追加されます。 作成した新しい特徴量セットは、特徴量セットドロップダウンで使用できるようになります。 アクティブな特徴量セットが青くハイライトされます。このセットがページの特徴量の表示を制御します。
プロジェクトのデータタブは、デフォルトですべての特徴量に設定されています。これは実際の特徴量セットではなく、データセット内の個々の特徴量を表示する方法です。
特徴量セットの選択¶
DataRobotによって割り当てられたセット以外の特徴量セットを使用するには、デフォルトのモデリングセットとして使用するセットを特徴量セットドロップダウンから選択します。
別の特徴量セットを選択するには:
-
プロジェクトのデータタブまでスクロールダウンします。
デフォルトでは、すべての特徴量が一覧表示されます。
-
特徴量セットドロップダウンメニューをクリックし、新しい特徴量セット(この例では有用な特徴量)を選択します。
有用な特徴量セットが、開始ボタンの下に表示されます。
特徴量セットの作成¶
自動作成された特徴量セットを使用しない場合は、カスタム特徴量セットを作成してモデルのトレーニングを行い、モデルが向上するかどうかを確認します。 カスタム特徴量セットは、データページまたはメニューから作成できます。 さらに、特徴量のインパクトタブから特徴量のインパクトに基づいて特徴量セット(冗長な特徴量が除外された特徴量セットなど)を作成できます。 これらの特徴量セットの管理は後で特徴量セットタブから行うことができます。
データページからの特徴量セットの作成¶
データページから特徴量セットを作成するには:
- プロジェクトのデータタブを選択します。
-
(オプション)特徴量セットドロップダウンから、すべての特徴量を選択して、データセット内のすべての列(特徴量)を表示します。
-
特徴量名の左側のチェックボックスを使用して、特徴量のセットを選択します。 最初の特徴量を選択すると、特徴量セットを作成リンクがアクティブになります。
-
新しいセットに追加する各特徴量を選択して、特徴量セットを作成をクリックします。
表示されるダイアログボックスに名前を入力して、特徴量セットを作成をクリックします。 ページが更新され、新しいセットに属する特徴量だけが表示されます(特徴量セットドロップダウンで青でハイライトされます)。
ヒント
ボックスをクリックするとすべて選択できます。選択した特徴量を選択解除するには、選択した特徴量をクリックします。
既存のリストから特徴量セットを作成する¶
メニューを使用して既存の特徴量セットを選択し、特徴量を追加または削除して新しい特徴量セットを作成します。
-
プロジェクトのデータタブの左上にあるメニューをクリックし、特徴量セットごとに特徴量を選択するをクリックします。
備考
特徴量セット名をクリックすると、表示されたページで、選択した特徴量セットに属するすべての特徴量(特徴量セットドロップダウンで設定されます)が選択されます。
-
特徴量名の左側にあるチェックボックスを使用して、特徴量を追加または削除します。
-
+ 特徴量セットを作成をクリックし、新しい特徴量セット名を入力してカスタム特徴量セットを保存します。 新しいセットは、(特徴量セットドロップダウンから)プロジェクト全体での選択に使用できます。
特徴量の型でフィルターして選択¶
特徴量のデータ型で特徴量をフィルターして選択します。
-
プロジェクトのデータタブの左上にあるメニューをクリックし、特徴量の型で特徴量を選択をクリックします。
-
特徴量名の左側にあるチェックボックスを使用して、特徴量を追加または削除します。
-
+ 特徴量セットを作成をクリックし、新しい特徴量セット名を入力してカスタム特徴量セットを保存します。
特徴量セットタブ¶
特徴量セットタブ(データページ内)を使用して、特徴量セットを管理できます。 このタブには、DataRobotで作成した特徴量セットやカスタム特徴量セットのサマリー(名前、特徴量の数、モデルの数、作成日、および説明)が表示されます。セット(の一部)の削除または名前変更を行ってセットを整理して、混乱を避けることができます。 名前の横に表示されるロック()は、そのセットを削除できないことを示します。
モデルを構築すると、特徴量セットには、自動作成されたセット(1)およびカスタムセット(2)が含まれます。
特徴量セットの管理¶
DataRobotには、特徴量セットを操作するためのツールがいくつか搭載されています。 セットの作成方法(自動または手動)、またはセットがリーダーボード上でモデルの作成に使用されたかどうかに応じて、アクションの動作が異なることがあります。
次の表にアクションを示します。
アイコン | 説明 |
---|---|
選択した特徴量セットの一部である特徴量をCSVファイルとしてエクスポートします。 | |
選択した特徴量セットをプロジェクトデータタブで開きます。 | |
セット名および説明を編集できるダイアログが表示されます。 (自動作成された特徴量セットの説明は変更できますが、名前は変更できません。)* | |
選択した特徴量セットを使用してオートパイロットを再実行します。* | |
or | 選択したセットを削除します(またはセットが削除できないことを示します)。 自動作成された特徴量セットは削除できません。* |
* 特徴量セットの削除または名前変更、およびオートパイロットの再実行を行うには、ユーザーレベル以上のプロジェクトアクセスが必要です。
ヒント
特徴量セットに対する特徴量の追加や削除を行うことはできません。 その代わりに、目的のすべての特徴量で新しい特徴量セットを作成してください。
特徴量セットの削除¶
特徴量セットを削除すると、プロジェクト内で、そのセットで構築されたモデルも削除されます。 削除できるのはカスタム特徴量だけです(名前の横にが表示されている特徴量は削除できません)。 モデリング中のカスタム特徴量を削除するオプションをクリックすると、影響を受けるモデルの数を示す注意が表示されます。
以下の特徴量セットでは、削除機能を使用できません。
- 自動作成された特徴量セット。
- プロジェクトのデフォルトのモデリングセット。
- プロジェクトの単調制約特徴量セットとして設定された特徴量セット。
- 時系列プロジェクトのモデリングデータセットを作成する入力特徴量セットとして使用される特徴量セット。
- モデルデプロイで使用されている特徴量セット(モデルおよびその特徴量セットはデプロイを削除するまで削除できません)。
名前と説明の編集¶
カスタム特徴量セットを作成するとき、最初に表示されるダイアログで名前を付けます。 特徴量セットタブから、セットに説明を追加できます。 その説明を追加する場合、または既存の説明を編集する場合、セットをハイライトして鉛筆アイコン()をクリックします。
DataRobotで自動作成されたセットの説明は変更できますが、名前は変更できません。
特徴量セットでオートパイロットを再実行¶
モデルを構築した後、特徴量セットタブからオートパイロットを再実行します。 これは、オートパイロットを実行した後に特徴量セットをカスタマイズし、追加のモデルを生成する場合に便利です。
備考
プロジェクトのモデルの構築中にオートパイロットを再実行すると、現在実行している特徴量セットが中断(その特徴量セットでの新規モデルの構築が停止)され、選択したセットを使用してオートパイロットが最初から再実行されます。
これは、右側のパネルのワーカーキューで使用できるモデリング設定の構成リンクからオートパイロットを再実行するのと同じアクションであることに注意してください。
カスタム特徴量セットでオートパイロットを再実行するには:
-
データタブで、特徴量セットタブをクリックします。
-
新しいモデルの構築に使用する特徴量セットの右側にあるメニューをクリックし、 オートパイロットを再実行を選択します。
-
モデリングを再実行ウィンドウで、モデリングモードを選択し、再実行をクリックします。
自動作成された特徴量セット¶
DataRobotは自動的に各プロジェクトでいくつかの特徴量セットを作成します。 以下の点に注意してください。
- 時系列特徴量セットは、AutoML特徴量セットとは異なります。
- 交互作用の検索から作成された特徴量については、異なる特徴量セットになります(プラス(+)記号が付加されます)。
- プロジェクトのターゲット特徴量は、すべての特徴量セットに自動的に追加されます。
すべてのセットがプロジェクトに適用されるわけではありませんが、以下では自動的に作成された特徴量セットについて説明します。
特徴量セット | 説明 |
---|---|
すべての特徴量(デフォルト) | すべてのデータセット特徴量を含み、特徴量エンジニアリングは実行しません。 |
有用な特徴量 | DataRobotでターゲットリーケージが検出されない場合のデフォルトの特徴量セットです。 このリストには、一般化が可能なモデルの構築に有用な情報が含まれているかどうかを判断する「合理性」チェックに合格する特徴量がる組まれます。 たとえば、有用な情報が少ない、または重複する(重複列、すべてが同一値の列や、同一のリファレンスIDの列など)、値の数が少なすぎるなどと判断された特徴量は除外されます。 有用な特徴量は、特徴量セットの一番上に表示されます。 |
有用な特徴量 - リーケージ除去済 | DataRobotでターゲットリーケージが検出された場合のデフォルトの特徴量セットです。 このセットでは、ターゲットリーケージを発生させるリスクのある特徴量およびモデリングに有用な情報を提供しない(またはほとんど提供しない)特徴量が除外されます。 何が除外されたかを判断するには、データテーブルのすべての特徴量を選択した状態で、ラベル付けされた特徴量を確認できます。 |
元の特徴量 | データセットのすべての特徴量(ユーザーが派生した特徴量を除き、有益な特徴量セットから除外された特徴量を含む)(重複、高い欠損値など)。 |
有用性上位の選抜 | 選択したターゲットとの一定の非線形相関のしきい値(0.005を超えるACEスコア)を満たす特徴量。 有用な特徴量セットの各エントリーに関して、ターゲットに対する特徴量の個々の関係性が計算されます。 このセットは、EDA2が完了するまで使用できません。 |
DataRobotで削減した特徴量 | 特徴量のサブセット(リーダーボード内のベストな非アンサンブルモデルの特徴量のインパクトの計算に基づいて選択されます)。 DataRobotでは、このDRの削減済み特徴量セットを含む最高の非アンサンブルモデルが再トレーニングされ、新規モデルが作成されます。 元のモデルと新しいモデルが比較され、より優れたモデルが選択されます。このモデルは、モデルを推奨する目的で、より高いサンプルサイズで再トレーニングされます。 DRの削減済み特徴量は、ほとんどの場合、モデルの累積インパクトの95%を占める特徴量で構成されます。 この数値が100以上の場合、上位100の特徴量だけが含まれます。 プロジェクトで冗長な特徴量の識別がサポートされている場合、DRの削減済み特徴量から冗長な特徴量が除外されます。 このセットは クイックモードでは作成されないことに注意してください。 |
DataRobotにより数を削減した特徴量セットでのモデルの再トレーニング
DataRobotにより数を削減した特徴量セットでモデルを再トレーニングすると、特徴量のインパクトはトレーニングデータからサンプリングされたデータで生成されるため、交差検定のスコアが楽観的になる可能性があります。 これにより、その他の交差検定分割のサンプルデータを使用すると、交差検定スコアがさらに楽観的になります。
この影響は、サンプルサイズが小さく分散が大きい場合に顕著になります。
このため、リーケージの最終チェックとなるホールドアウトセットがあると便利です。
特徴量セットでなくても(モデル構築で使用できなくても)、すべての特徴量を選択すると、データセット内のすべての列に加えて、追加の変換済み特徴量がプロジェクトのデータにリストされます。