Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量セット

特徴量セットは、DataRobotでモデルの構築に使用する特徴量のサブセットを制御します。自動作成されたセットの1つを使用するか、またはデータのページまたはメニューから手動で特徴量を追加することができます。(いくつかの)特徴量セットのレビュー、名前の変更、および削除を行うことも可能です。モデリングに使用されるセットは、デフォルトのモデリング特徴量セットと呼ばれます。これは、[開始]ボタンをクリックしたときに選択される特徴量セットです。

選択内容を上書きしない場合、DataRobotはモデルの構築に以下のいずれかのセットが使用されます。

  • モデリングにおける潜在的に有用な情報を提供する全ての特徴量(有用な特徴量セット)。
  • ターゲットリーケージのリスクを伴う特徴量を削除した上で、モデリングを行う際に潜在的に有用な情報を提供する全ての特徴量(有用な特徴量からリーケージを除去したセット)。

EDA2の前または後に、特徴量を選択して新しい特徴量セットを作成することができます。ターゲット特徴量は、すべての特徴量セットに自動的に追加されます。作成した新しい特徴量セットは、特徴量セットドロップダウンで使用できるようになります。DataRobotではアクティブな特徴量セットが青くハイライト表示されます。このセットがページの特徴量の表示を制御します。

プロジェクトのデータタブは、デフォルトですべての特徴量に設定されています。これは実際の特徴量セットではなく、データセット内の個々の特徴量を表示する方法です。

特徴量セットの選択

DataRobotによって割り当てられたセット以外の特徴量セットを使用するには、デフォルトのモデリングセットとして使用するセットを特徴量セットドロップダウンから選択します。[開始]ボタンの下に新しい設定が表示されます。

特徴量セットの作成

自動作成された特徴量セットの1つを使用したくない場合は、カスタマイズされた特徴量セットを作成してモデルのトレーニングを行い、モデルが向上するかどうかを確認します。これらのセットは、データのページまたはメニューから作成できます。さらに、特徴量のインパクトタブから特徴量のインパクトに基づく特徴量セット(冗長な特徴量が除外されたセットを含む)を作成できます。これらの特徴量セットの管理は後で特徴量セットタブから行うことができます。

データページからの特徴量セットの作成

データページから特徴量セットを作成するには:

  1. プロジェクトのデータタブを選択します。
  2. (オプション)特徴量セットドロップダウンから、すべての特徴量を選択して、データセット内のすべての列(特徴量)を表示します。

  3. 特徴量名の左側のチェックボックスを使用して、特徴量のセットを選択します。最初の特徴量を選択すると、特徴量セットを作成リンクがアクティブになります。

  4. 新しいセットに追加する各特徴量を選択して、特徴量セットを作成をクリックします。

    表示されるダイアログボックスに名前を入力して、特徴量セットを作成をクリックします。ページが更新され、新しいセットの特徴量だけが表示されます(特徴量セットドロップダウンで青でハイライトされます)。

ヒント

ボックスをクリックするとすべて選択できます。選択した特徴量を選択解除するには、選択した特徴量をクリックします。

メニューを使用した特徴量セットの作成

メニューオプションを使用して、新しい特徴量セットの特徴量をすばやく選択できます。メニューをクリックして展開します。

特徴量セット名をクリックすると、表示されたページで、選択した特徴量セットに属するすべての特徴量(特徴量セットドロップダウンで設定されます)が選択されます。例えば、特徴量セット有用な特徴量に設定し、メニュードロップダウンから、作成した上の例(Top5)を選択します。Top5リストの5つの特徴量が自動的に選択されます(左側のボックスが選択されます)。これを基準として使用し、特徴量を追加または削除して新しいセットを作成できます。

新しい特徴量を追加して特徴量セットに名前を付け、作成をクリックします。新しいセットは、(特徴量セットドロップダウンから)プロジェクト全体での選択に使用できます。

特徴量セットタブ

特徴量セットタブ(データページ内)を使用して、特徴量セットを管理できます。これには、DataRobotで作成した特徴量セットやカスタム特徴量セットのサマリー(名前、特徴量の数、モデルの数、作成日、および説明)が表示されます。セット(の一部)の削除または名前変更を行ってセットを整理して、混乱を避けることができます。名前の横に表示されるロック()は、そのセットを削除できないことを示します。

モデルを構築すると、特徴量セットには、自動作成されたセット(1)およびカスタムセット(2)が含まれます。

特徴量セットの管理

DataRobotには、特徴量セットを操作するためのツールがいくつか搭載されています。セットの作成方法(DataRobotによる自動またはユーザーによる手動)、またはセットがリーダーボード上でモデルの作成に使用されたかどうかに応じて、アクションの動作が異なることがあります。

次の表にアクションを示します。

アイコン 説明
選択した特徴量セットの一部である特徴量をCSVファイルとしてエクスポートします。
選択した特徴量セットをプロジェクトのデータタブで開きます。
セット名および説明を編集できるダイアログが表示されます。(自動作成された特徴量セットの説明は変更できますが、名前は変更できません。)*
選択した特徴量セットを使用してオートパイロットを再実行します。*
または 選択したセットを[削除]します(またはそれが削除できないことを表示します)。自動作成された特徴量セットは削除できません。*

* 特徴量セットの削除または名前変更、および[オートパイロット]の再実行を行うには、ユーザーレベル以上のプロジェクトアクセスが必要になります。

ヒント

特徴量セットに対する特徴量の追加や削除を行うことはできません。その代わりに、欲しいすべての特徴量で新しい特徴量セットを作成してください。

特徴量セットの名前と説明の編集

カスタム特徴量セットを作成するときは、単純に最初のダイアログでセットに名前を付けます。特徴量セットタブから、セットに説明を追加できます。その説明を追加する場合、または既存の説明を編集する場合、セットをハイライトして鉛筆アイコン()をクリックします。

DataRobotで自動作成されたセットの説明は変更できますが、名前は変更できません。

オートパイロットを再実行

特徴量セットタブで再トレーニングアイコン()をクリックすれば、[オートパイロット]の再実行を開始できます。アイコンをクリックするとダイアログが表示されます。オートパイロットを再実行を選択して、新しいセットでプロジェクトを再構築します。

  • プロジェクトのモデルの構築中にオートパイロットを再実行すると、現在実行している特徴量セットが中断(その特徴量セットでの新規モデルの構築が停止)され、選択したセットを使用してオートパイロットが最初から再実行されます。

これは、右側のパネルのワーカーキューで使用できるモデリング設定の構成リンクからオートパイロットを再実行するのと同じアクションであることに注意してください。

特徴量セットの削除

特徴量セットを削除すると、プロジェクト内で、そのセットで構築されたモデルも削除されます。削除できるのはカスタム特徴量(名前の横にがないもの)だけです。モデリング中のカスタム特徴量セットを削除するオプションをクリックすると、DataRobotに影響を受けるモデルの数を示す警告が表示されます。

以下の特徴量セットでは、削除機能を使用できません。

  • 自動作成された特徴量セット。
  • プロジェクトのデフォルトのモデリングセット。
  • プロジェクトの単調制約特徴量セットとして設定された特徴量セット。
  • 時系列プロジェクトのモデリングデータセットを作成する入力特徴量セットとして使用される特徴量セット。
  • モデルデプロイで使用されている特徴量セット(モデルおよびその特徴量セットはデプロイを削除するまで削除できません)。

自動作成された特徴量セット

DataRobotは自動的に各プロジェクトでいくつかの特徴量セットを作成します。以下の点に注意してください。

  • 時系列特徴量セットは、AutoML特徴量セットとは異なります。
  • 交互作用の検索から作成された特徴量については、異なる特徴量セットになります(プラス(+)記号が付加されます)。
  • プロジェクトのターゲット特徴量は、すべての特徴量セットに自動的に追加されます。

すべてのセットがプロジェクトに適用されるわけではありませんが、以下では自動的に作成された特徴量セットについて説明します。

  • DRで削減された特徴量:特徴量のサブセット(リーダーボード内のベストな非アンサンブルモデルの特徴量のインパクトの計算に基づいて選択されます)。DataRobotでは、このDRで削減された特徴量セットを含む最高の非アンサンブルモデルが再トレーニングされ、新規モデルが作成されます。元のモデルと新しいモデルが比較され、より優れたモデルが選択されます。このモデルは、モデルを推奨する目的で、より高いサンプルサイズで再トレーニングされます。DRで削減された特徴量は、ほとんどの場合、モデルの累積インパクトの95%を占める特徴量で構成されます。この数値が100以上の場合、上位100の特徴量だけが含まれます。プロジェクトで冗長な特徴量の識別がサポートされている場合、DRで削減された特徴量から冗長な特徴量が除外されます。

  • 有用な特微量 - リーケージ除去済:DataRobotがターゲットリーケージを検出した場合のデフォルトの特徴量セット。このセットでは、ターゲットリーケージを発生させるリスクのある特徴量およびモデリングに有用な情報を提供しない(またはほとんど提供しない)特徴量が除外されます。何が除外されたかを判断するには、データテーブルのすべての特徴量を選択した状態で、ラベル付けされた特徴量を確認できます。

  • 有用な特微量: DataRobotでターゲットリーケージが検出されない場合のデフォルトの特徴量セットです。このリストには、一般化が可能なモデルの構築に有用な情報が含まれているかどうかを判断する「合理性」チェックに合格する特徴量がる組まれます。例えば、有用な情報が少ない、または重複する(重複列、すべてが同一値の列や、同一のリファレンスIDの列など)、値の数が少なすぎるなどと判断された特徴量は除外されます。有用な特徴量は、特徴量セットの一番上に表示されます。

  • 元の特微量:ユーザー由来の特微量を除き、有用な特徴量セットから除外されたものを含む(重複、高欠損値など)、データセット内のすべての特微量。

  • 有用性上位の選抜:選択したターゲットの非線形相関について特定のしきい値(0.005より大きいACEスコア)に適合する特徴量。有用な特徴量セットの各エントリーに関して、個々の特徴量の関係性がターゲットに照らして計算されます。このセットは、EDA2が完了するまで使用できません。

特徴量セットでなくても(モデル構築で使用できなくても)、すべての特徴量を選択すると、データセット内のすべての列に加えて、追加の変換済み特徴量がプロジェクトのデータにリストされます。

「データ」ページの情報タグ

データページには、EDA1の計算中に検出されたさまざまな情報を示すタグが表示されます。例:

タグ 説明
重複 取込みデータセット内で特徴量列が重複しています。
列に値が含まれていません。
値が少ない データセットのサイズに対して、DataRobotで特徴量から意味のある情報を外挿するための値が少なすぎます。ユニーク数の数の指標ではなく、単一の値を支配するものであり、特微量をモデリングには不適格なものにします。以下に具体例を示します。
  • 欠損値がなく、ユニークな値を1つだけ持つ、1つの数値。
  • 99.9%超が同じ値である特徴量
値が多すぎます データセットのサイズに対して、DataRobotで特徴量から意味のある情報を外挿するための値が多すぎます。カテゴリー特徴量の場合、ラベルは次の場合に適用されます:[ number of unique values ] > [ number of rows] / 2 |
リファレンスID リファレンスIDを含む列(ユニークなシーケンス番号)数値特徴量の場合、ラベルは次の場合に適用されます:[ number of unique values] = [number of rows]
ターゲットに関連する 列はターゲット列から派生しています。
ターゲットリーケージ 予測時に値が不明な特徴量を示します。

更新しました April 19, 2022
Back to top