Skip to content

操作の追加

レシピは、モデリングの準備を行うためにソースデータに適用される変換である操作で構成されています。 操作は連続して適用されるので、望ましい結果を得るには、レシピで 操作を並べ替える必要となる場合があることに注意してください。

操作の挙動

ラングリングレシピが接続先のクラウドデータプラットフォームにプッシュダウンされると、その環境で操作が実行されます。 操作がどのように動作するかを理解するには、お使いのデータプラットフォームのドキュメントを参照してください。

データセットがDataRobotでマテリアライズされ、ユースケースに追加されると、データタブに移動し、プッシュダウン中にクラウドデータプラットフォームによって どのクエリーが実行されたかを表示できます。

以下の表は、ワークベンチで現在利用できるラングリング操作について説明したものです。

操作 説明
結合 同じ接続インスタンスからアクセスできるデータセットを結合します。
集計 データセット内の特徴量に数学的集計を適用します。
行をフィルター 指定した値と条件に従って、データセットの行をフィルターします。
重複行の削除 データセットから重複する行をすべて自動的に削除します。
検索と置換 データセットに含まれる特定の特徴量の値を置き換えます。
新しい特徴量を計算 スカラーサブクエリ、スカラー関数、またはウィンドウ関数を使用して、新しい特徴量を作成します。
特徴量名を変更する データセットに含まれる1つまたは複数の特徴量の名前を変更します。
特徴量の削除 データセットから1つまたは複数の特徴量を削除します。
時系列特徴量の派生 時系列エクスペリメント用にカスタマイズされた特徴量エンジニアリングを作成します。
ラグ特徴量 順序付け特徴量に基づいて特徴量の1つ以上のラグを作成します。
ローリング統計の派生(数値) 統計方法を適用して、数値特徴量のローリング統計を作成します。
ローリング統計の派生(カテゴリー) カテゴリー特徴量のローリング統計を作成します。
アンバランスなデータセットに対してマジョリティークラスのダウンサンプリングを実行できますか?

はい、ラングリングの パブリッシュ段階でマジョリティークラスのダウンサンプリングを有効にすることができます。 ワークベンチでは、ダウンサンプリングがソース内で行われ、サンプリングの加重が生成されます。 次に、ターゲットと加重がエクスペリメントに渡されます。

レシピに操作を追加するには:

  1. 右側のパネルで、+ 操作の追加をクリックしてレシピに個々の変換を追加するか、レシピをインポートをクリックして既存のレシピをインポートします。

  2. ライブサンプルへの影響を分析しながら、操作の追加を続けます。 操作を追加するには、以下の操作を行います。

    • 操作の追加をクリックします。
    • アクションメニュー を開いて、既存の操作を使用します。
    • 少なくとも1つの操作を追加したら、+ 操作の追加ボタンの右側にある矢印をクリックし、レシピをインポートを選択します。 これにより、既存のラングリングレシピから操作を追加できます。

    ライブサンプルは、DataRobotがデータソースから新しいサンプルを取得し、操作を適用すると更新され、変換をリアルタイムで確認できます。

  3. 完了したら、 レシピをパブリッシュできます。

結合

結合操作を使用して、同じ接続インスタンスからアクセスできるデータセットを結合します。

テーブルまたはデータセットを結合するには:

  1. 右側のパネルで結合をクリックします。

  2. + データセットを選択をクリックして、接続インスタンスからデータセットを参照して選択します。

  3. 追加するデータセットを開いてプロファイリングしたら、選択をクリックします。

  4. ドロップダウンから適切な結合タイプを選択します。

    • 内部は、両方のデータセットで一致する値を持つ行(order_id列で一致する値を持つ行など)のみを返します。
    • は、左側のデータセット(元のデータセット)からすべての行を返し、右側のデータセット(結合済み)で一致する値を持つ行のみを返します。
    • デカルト(クロス結合)では、1つのテーブルのすべての行と別のテーブルのすべての行を結合し、結果として生成されるテーブルに可能な組み合わせがすべて含まれるようにします。
  5. 2つのデータセットの関係性を定義する結合条件を選択します。 この例では、両方のデータセットはorder_idによって関連付けられています。

  6. (オプション)特徴量のプレフィックスの下のフィールドに入力すると、データセットが結合された後の結果のデータセットで、右側のデータセットから追加されたすべての特徴量が、指定したプレフィックスでマークされます。

  7. レシピに追加をクリックします。

集計

集計操作を使用して、次の数学的集計をデータセットに適用します(使用可能な集計は、特徴量タイプによって異なります)。

  • 合計
  • 最小
  • 最大
  • 中央値
  • 平均
  • 標準偏差
  • 件数
  • 一意の値の数
  • 最も高い頻度(Snowflakeのみ)

集計を追加するには:

  1. 右側のパネルで集計をクリックします。

  2. 以下のように、使用可能なフィールドに入力します。

    • キーによるグループ化で、集計のグループ化に使用する特徴量を選択します。
    • 集計する特徴量の下のフィールドをクリックし、ドロップダウンから特徴量を選択します。
    • 集計関数の下のフィールドをクリックし、特徴量に適用する集計を1つ以上選択します。

  3. (オプション)このグループ内の追加特徴量に集計を適用するには、+ 特徴量を追加をクリックします。

  4. レシピに追加をクリックします。

    レシピに操作を追加すると、DataRobotは_AggregationFunctionサフィックスが付加された元の名前を使用して、集計済み特徴量の名前を変更します。 この例では、新しい列はage_maxage_most_frequentです。

行をフィルター

行をフィルター操作を使用して、指定した値と条件に従ってデータセットの行をフィルターします。

行をフィルターするには:

  1. 右側のパネルで行をフィルターをクリックします。

  2. 定義された条件に一致する行を保持するか、除外するかを決定します。

  3. フィルターしたい特徴量を選択します。 これを行うには、条件を選択の下にある最初のフィールド内をクリックし、ドロップダウンから特徴量を選択します。

  4. 特徴量の下のドロップダウンで、以下のオプションから条件のタイプを選択します。

    条件のタイプ 説明
    次の値と等しい 指定された値または特徴量と同じ行を返します。
    次の値と等しくない 指定された値や特徴量とは異なる行を返します。
    次の値より小さい 指定された値または特徴量より小さい行を返します。
    次の値以下 指定された値または特徴量以下の行を返します。
    次の値より大きい 指定された値または特徴量より大きい行を返します。
    次の値以上 指定された値または特徴量以上の行を返します。
    次の値はnullである NULLの行をすべて返します。
    次の値はnullではない NULLでない行をすべて返します。
    次の2値の間 ある値または特徴量から別の値または特徴量までの範囲を返します。
    次の値を含む 指定された値または特徴量を含む行を返します。
  5. 条件タイプの下で、または特徴量を選択します。 ただし、条件のタイプによっては、この手順は必要ありません。

    • を選択した場合は、フィールドに値を入力する必要があります。 DataRobotは、選択された特徴量と指定された値を比較し、条件のタイプに一致するすべての行を返します。
    • 特徴量を選択した場合は、フィールド内をクリックし、ドロップダウンからデータセットの特徴量を選択する必要があります。 DataRobotはこの2つの特徴量を比較し、条件のタイプに一致するすべての行を返します。 たとえば、条件がadmission_type_id = admission_source_idの場合、admission_type_idの値がadmission_source_idの値と同じである行のみが返されます。

  6. (オプション)条件を追加をクリックして、追加のフィルター条件を定義します。

  7. レシピに追加をクリックします。

重複行の削除

重複行を削除するには、右側のパネルで重複行の削除をクリックします。 この操作はすぐにレシピに追加されて、ライブサンプルに適用され、重複した情報があるすべての行が削除されます。

検索と置換

検索して置換操作を使用すると、データセット内の特定の特徴量値をすばやく置換できます。 これは、たとえば、データセットのタイプミスを修正する場合に役立ちます。

特徴量値を検索して置換するには:

  1. 右側のパネルで検索して置換をクリックします。

  2. 特徴量を選択で、ドロップダウンをクリックし、置換する値を含む特徴量を選択します。 選択した列がハイライトされます。

  3. 検索で、一致条件(完全部分、または正規表現)を選択し、置換する特徴量値を入力します。 次に、置換で、新しい値を入力します。

  4. レシピに追加をクリックします。

新しい特徴量を計算

新しい特徴量を計算操作を使用して、データセット内の既存の特徴量から新しい出力特徴量を作成します。 ドメイン知識を適用することで、元のデータセットよりもビジネス問題をモデルに表現する機能を向上させる特徴量を作成できます。

新しい特徴量を計算するには:

  1. 右側のパネルで新しい特徴量を計算をクリックします。

  2. 新しい特徴量の名前を入力し、で、選択したクラウドデータプラットフォームのスカラーサブクエリー、スカラー関数、またはウィンドウ関数を使用して特徴量を定義します。

    以下については、Snowflakeのドキュメントを参照してください。

    以下については、BigQueryのドキュメントを参照してください。

    以下については、Databricksのドキュメントを参照してください。

    以下については、Spark SQLのドキュメントを参照してください。

    この例ではREGEXP_SUBSTRを使用して、age列の[<age_range_start> - <age_range_end>)から最初の数値を抽出し、またto_numberを使用して、文字列からの出力を数値に変換します。

    式の形式

    新しい特徴量式を計算する形式については、データ接続に基づく例を提供するフィールドを参照してください。このフィールドは、データ接続に基づく例を提供します。

  3. レシピに追加をクリックします。

特徴量名を変更する

データセットに含まれる1つまたは複数の特徴量の名前を変更するには、特徴量名の変更操作を使用します。

特徴量の名前を変更するには:

  1. 右パネルの特徴量名の変更をクリックします。

    ライブサンプルから特定の特徴量名を変更する

    名前を変更する特徴量の横にあるアクションメニュー をクリックすることもできます。 これにより、特徴量フィールドが既に入力されている状態で、操作パラメーターを、右側パネルで開きます。

  2. 特徴量名で、最初のフィールド内をクリックし、名前を変更したい特徴量を選択します。 続いて、2番目のフィールドに新しい特徴量名を入力します。

  3. (オプション)追加特徴量の名前を変更するには、特徴量を追加をクリックします

  4. レシピに追加をクリックします。

特徴量の削除

データセットから特徴量を削除するには、特徴量の削除操作を使用します。

特徴量を削除するには:

  1. 右パネルの特徴量の削除をクリックします。

    ライブサンプルから特定の特徴量を削除する

    削除する特徴量の横にあるアクションメニュー をクリックすることもできます。 これにより、特徴量フィールドが既に入力されている状態で、操作パラメーターを、右側パネルで開きます。

  2. 特徴量名でドロップダウンをクリックし、名前を変更したい特徴量を選択します。 特徴量の選択が終わったら、ドロップダウンの外をクリックします。

    選択した特徴量以外のすべての特徴量を削除するには、選択された特徴量を保持し、残りを削除の横にあるボックスを選択します。

  3. レシピに追加をクリックします。

時間認識操作

時間認識操作については、 時系列データのラングリングを参照してください。 これらの操作には以下が含まれます。

操作アクション

レシピに操作を追加した後、個々の操作の右側にあるアクションメニューにアクセスして、以下の操作を行うことができます。

アクション 説明
編集 操作の条件を編集できます。
手順を省略 ライブプレビューにレシピを適用する際、特定の操作をスキップするように指示します。 レシピをパブリッシュすると、これらの操作はレシピの操作リストに表示されますが、出力データセットには適用されません。
この操作までをプレビュー 選択した操作以上の操作のみをライブプレビューに適用します。
+ 上への操作の追加 選択した操作の真上に操作を追加します。
+ 下への操作の追加 選択した操作の真下に操作を追加します。
レシピを上にインポート 選択した操作の真上にある既存のレシピから操作をインポートします。
レシピを下にインポート 選択した操作の真下にある既存のレシピから操作をインポートします。
重複 選択した操作のコピーを作成します。
削除 レシピから操作を削除します。

この操作までをプレビュー

この操作アクションまでのプレビューアクションを使用すると、ライブサンプル上でさまざまな操作の組み合わせを素早くテストすることができます。 この操作までプレビューを選択すると、レシピパネルにアクションが追加されます。 ライブプレビューでは、このアクションの上に表示されている操作のみが表示されるため、操作の下/上にアクションをドラッグ&ドロップして、異なる操作がプレビューにどのように影響するかを確認できます。

操作を適用せずにプレビューを表示するには、レシピの一番上にアクションをドラッグ&ドロップします。

備考

この操作は、レシピがパブリッシュされると無視され、同じレシピで作業している他のメンバーには見えません。

+ 操作を下に追加アクションをこの操作までをプレビューの直上の操作に使用した場合、操作はこの操作までをプレビューの下に追加され、プレビューには適用されません。 + 操作を下に追加アクションをこの操作までをプレビューの直下の操作に使用した場合、操作はこの操作までをプレビューの下に追加され、プレビューには適用されません。

操作の並べ替え

ラングリングレシピのすべての操作は、順番に適用されるため、表示される順序は、出力データセットの結果に影響します。

操作を新たな場所に移動するには、移動する操作をクリックしてホールドし、新たな位置にドラッグします。

ライブサンプルが更新され、新たな順序が反映されます。

続けて読む

このページで説明されているトピックの詳細については、以下を参照してください。