Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

操作の追加

レシピは、モデリングの準備を行うためにソースデータに適用される変換である操作で構成されています。 操作は連続して適用されるので、望ましい結果を得るには、レシピで 操作を並べ替える必要となる場合があることに注意してください。

操作の挙動

ラングリングレシピが接続先のクラウドデータプラットフォームにプッシュダウンされると、その環境で操作が実行されます。 操作がどのように動作するかを理解するには、お使いのデータプラットフォームのドキュメントを参照してください。

データセットがDataRobotでマテリアライズされ、ユースケースに追加されると、データタブに移動し、プッシュダウン中にクラウドデータプラットフォームによって どのクエリーが実行されたかを表示できます。

以下の表は、ワークベンチで現在利用できるラングリング操作について説明したものです。

操作 説明
結合 同じ接続インスタンスからアクセスできるデータセットを結合します。
集計 データセット内の特徴量に数学的集計を適用します。
行をフィルター 指定した値と条件に従って、データセットの行をフィルターします。
重複行の排除 データセットから重複する行をすべて自動的に削除します。
検索と置換 データセットに含まれる特定の特徴量の値を置き換えます。
新しい特徴量を計算 スカラーサブクエリ、スカラー関数、またはウィンドウ関数を使用して、新しい特徴量を作成します。
特徴量名を変更する データセットに含まれる1つまたは複数の特徴量の名前を変更します。
特徴量の削除 データセットから1つまたは複数の特徴量を削除します。
Derive time series features Create customized feature engineering for time series experiments.
Lag features Create one or more lags for a feature based off of the ordering feature.
Derive rolling statistics (numeric) Apply statistical methods to create rolling statistics for a numeric feature.
Derive rolling statistics (categorical) Create rolling statistics for a categorical feature.
アンバランスなデータセットに対してマジョリティークラスのダウンサンプリングを実行できますか?

はい、ラングリングの パブリッシュ段階でマジョリティークラスのダウンサンプリングを有効にすることができます。 ワークベンチでは、ダウンサンプリングがソース内で行われ、サンプリングの加重が生成されます。 次に、ターゲットと加重がエクスペリメントに渡されます。

レシピに操作を追加するには:

  1. In the right panel, either click + Add operation to add individual transformations to your recipe, or Import recipe to import an existing recipe.

  2. 操作を選択し、設定します。 続いて、レシピに追加をクリックします。

    ライブサンプルは、DataRobotがデータソースから新しいサンプルを取得し、操作を適用すると更新され、変換をリアルタイムで確認できます。

  3. Continue adding operations while analyzing their effect on the live sample. To add operations, you can:

    • 操作の追加をクリックします。
    • Open the Actions menu next to interact with specific operations.
    • Click the arrow to the right of the + Add operation button and select Import recipe. This allows you to add operations from an existing wrangling recipe.

  4. When you're done, you can publish the recipe.

結合

結合操作を使用して、同じ接続インスタンスからアクセスできるデータセットを結合します。

テーブルまたはデータセットを結合するには:

  1. 右側のパネルで結合をクリックします。

  2. + データセットを選択をクリックして、接続インスタンスからデータセットを参照して選択します。

  3. 追加するデータセットを開いてプロファイリングしたら、選択をクリックします。

  4. ドロップダウンから適切な結合タイプを選択します。

    • 内部は、両方のデータセットで一致する値を持つ行(order_id列で一致する値を持つ行など)のみを返します。
    • は、左側のデータセット(元のデータセット)からすべての行を返し、右側のデータセット(結合済み)で一致する値を持つ行のみを返します。

  5. 2つのデータセットの関係性を定義する結合条件を選択します。 この例では、両方のデータセットはorder_idによって関連付けられています。

  6. レシピに追加をクリックします。

集計

集計操作を使用して、次の数学的集計をデータセットに適用します(使用可能な集計は、特徴量タイプによって異なります)。

  • 合計
  • 最小
  • 最大
  • 平均
  • 標準偏差
  • 件数
  • 一意の値の数
  • 最も高い頻度(Snowflakeのみ)

集計を追加するには:

  1. 右側のパネルで集計をクリックします。

  2. キーによるグループ化で、集計のグループ化に使用する特徴量を選択します。

  3. 集計する特徴量の下のフィールドをクリックし、ドロップダウンから特徴量を選択します。 次に、集計関数の下のフィールドをクリックし、特徴量に適用する1つ以上の集計を選択します。

  4. (オプション)+ 特徴量を追加をクリックして、このグループ内の追加特徴量に集計を適用します。

  5. レシピに追加をクリックします。

    レシピに操作を追加すると、DataRobotは_AggregationFunctionサフィックスが付加された元の名前を使用して、集計済み特徴量の名前を変更します。 この例では、新しい列はage_maxage_most_frequentです。

行をフィルター

行をフィルター操作を使用して、指定した値と条件に従ってデータセットの行をフィルターします。

行をフィルターするには:

  1. 右側のパネルで行をフィルターをクリックします。

  2. 定義された条件に一致する行を保持するか、除外するかを決定します。

  3. フィルターする特徴量、条件タイプ、およびフィルターする値を選択して、フィルター条件を定義します。 選択した列がハイライトされます。

  4. (オプション)条件を追加をクリックして、追加のフィルター条件を定義します。

  5. レシピに追加をクリックします。

重複行の排除

重複行を削除するには、右側のパネルで重複行の排除をクリックします。 この操作は、直ちにレシピに追加され、ライブサンプルに適用されて、重複した情報があるすべての行が削除されます。

検索と置換

検索して置換操作を使用すると、データセット内の特定の特徴量値をすばやく置換できます。 これは、たとえば、データセットのタイプミスを修正する場合に役立ちます。

特徴量値を検索して置換するには:

  1. 右側のパネルで検索して置換をクリックします。

  2. 特徴量を選択で、ドロップダウンをクリックし、置換する値を含む特徴量を選択します。 選択した列がハイライトされます。

  3. 検索で、一致条件(完全部分、または正規表現)を選択し、置換する特徴量値を入力します。 次に、置換で、新しい値を入力します。

  4. レシピに追加をクリックします。

新しい特徴量を計算

新しい特徴量を計算操作を使用して、データセット内の既存の特徴量から新しい出力特徴量を作成します。 ドメイン知識を適用することで、元のデータセットよりもビジネス問題をモデルに表現する機能を向上させる特徴量を作成できます。

新しい特徴量を計算するには:

  1. 右側のパネルで新しい特徴量を計算をクリックします。

  2. 新しい特徴量の名前を入力し、で、選択したクラウドデータプラットフォームのスカラーサブクエリー、スカラー関数、またはウィンドウ関数を使用して特徴量を定義します。

    以下については、Snowflakeのドキュメントを参照してください。

    以下については、BigQueryのドキュメントを参照してください。

    以下については、Databricksのドキュメントを参照してください。

    以下については、Spark SQLのドキュメントを参照してください。

    この例ではREGEXP_SUBSTRを使用して、age列の[<age_range_start> - <age_range_end>)から最初の数値を抽出し、またto_numberを使用して、文字列からの出力を数値に変換します。

    式の形式

    新しい特徴量式を計算する形式については、データ接続に基づく例を提供するフィールドを参照してください。このフィールドは、データ接続に基づく例を提供します。

  3. レシピに追加をクリックします。

特徴量名を変更する

データセットに含まれる1つまたは複数の特徴量の名前を変更するには、特徴量名の変更操作を使用します。

特徴量の名前を変更するには:

  1. 右パネルの特徴量名の変更をクリックします。

    ライブサンプルから特定の特徴量名を変更する

    名前を変更する特徴量の横にあるアクションメニュー をクリックすることもできます。 これにより、特徴量フィールドが既に入力されている状態で、操作パラメーターを、右側パネルで開きます。

  2. 特徴量名でドロップダウンをクリックし、名前を変更したい特徴量を選択します。 続いて、2番目のフィールドに新しい特徴量名を入力します。

  3. (オプション)追加特徴量の名前を変更するには、特徴量を追加をクリックします

  4. レシピに追加をクリックします。

特徴量の削除

データセットから特徴量を削除するには、特徴量の削除操作を使用します。

特徴量を削除するには:

  1. 右パネルの特徴量の削除をクリックします。

    ライブサンプルから特定の特徴量を削除する

    削除する特徴量の横にあるアクションメニュー をクリックすることもできます。 これにより、特徴量フィールドが既に入力されている状態で、操作パラメーターを、右側パネルで開きます。

  2. 特徴量名でドロップダウンをクリックし、名前を変更したい特徴量を選択します。 特徴量の選択が終わったら、ドロップダウンの外をクリックします。

  3. レシピに追加をクリックします。

Time-aware operations

For time-aware operations, see time series data wrangling. These operations include:

Operation actions

After adding an operation to the recipe, you can access the Actions menu to the right of individual operations, allowing you to:

アクション 説明
編集 Allows you to edit the conditions of an operation.
この操作までをプレビュー Applies only the operations above the selected operation to the live preview.
+ Add operation above Adds an operation directly above the selected operation.
+ Add operation below Adds an operation directly below the selected operation.
Import recipe above Imports the operations from an existing recipe directly above the selected operation.
Import recipe below Imports the operations from an existing recipe directly below the selected operation.
重複 Makes a copy of the selected operation.
削除 Deletes the operation from the recipe.

この操作までをプレビュー

The Preview up to this operation action allows you to quickly test different combinations of operations on the live sample. When you select Preview up to this operation, the action is added to the recipe panel. The live preview only displays the operations listed above this action, so you can drag-and-drop the action below/above operations to see how different operations affect the preview.

To view the preview without any operations applied, drag-and-drop the action to the top of the recipe.

備考

This operation is ignored when the recipe is published and is not visible to other members working on the same recipe.

If you use the + Add operation below action on the operation directly above Preview up to this operation, the operation is added below Preview up to this operation and not applied to the preview. If you use the + Add operation below action on the operation directly below Preview up to this operation, the operation is added below Preview up to this operation and not applied to the preview.

操作の並べ替え

ラングリングレシピのすべての操作は、順番に適用されるため、表示される順序は、出力データセットの結果に影響します。

操作を新たな場所に移動するには、移動する操作をクリックしてホールドし、新たな位置にドラッグします。

ライブサンプルが更新され、新たな順序が反映されます。

次のステップ

ここから、次のことができます。

続けて読む

このページで説明されているトピックの詳細については、以下を参照してください。


更新しました October 2, 2024