NextGen UIに関するドキュメント > データプレパレーション > データのラングリング > レシピの構築 > Add wrangling operations

操作の追加¶

レシピは、モデリングの準備を行うためにソースデータに適用される変換である操作で構成されています。操作は連続して適用されるので、望ましい結果を得るには、レシピで操作を並べ替える必要となる場合があることに注意してください。

操作の挙動

ラングリングレシピが接続先のクラウドデータプラットフォームにプッシュダウンされると、その環境で操作が実行されます。操作がどのように動作するかを理解するには、お使いのデータプラットフォームのドキュメントを参照してください。

データセットがDataRobotでマテリアライズされ、ユースケースに追加されると、データタブに移動し、プッシュダウン中にクラウドデータプラットフォームによってどのクエリーが実行されたかを表示できます。

以下の表は、ワークベンチで現在利用できるラングリング操作について説明したものです。

操作	説明
結合	同じ接続インスタンスからアクセスできるデータセットを結合します。
集計	データセット内の特徴量に数学的集計を適用します。
行をフィルター	指定した値と条件に従って、データセットの行をフィルターします。
重複行の削除	データセットから重複する行をすべて自動的に削除します。
検索と置換	データセットに含まれる特定の特徴量の値を置き換えます。
新しい特徴量を計算	スカラーサブクエリ、スカラー関数、またはウィンドウ関数を使用して、新しい特徴量を作成します。
特徴量名を変更する	データセットに含まれる1つまたは複数の特徴量の名前を変更します。
特徴量の削除	データセットから1つまたは複数の特徴量を削除します。
時系列特徴量の派生	時系列エクスペリメント用にカスタマイズされた特徴量エンジニアリングを作成します。
ラグ特徴量	順序付け特徴量に基づいて特徴量の1つ以上のラグを作成します。
ローリング統計の派生（数値）	統計方法を適用して、数値特徴量のローリング統計を作成します。
ローリング統計の派生（カテゴリー）	カテゴリー特徴量のローリング統計を作成します。

アンバランスなデータセットに対してマジョリティークラスのダウンサンプリングを実行できますか？

はい、ラングリングのパブリッシュ段階でマジョリティークラスのダウンサンプリングを有効にすることができます。ワークベンチでは、ダウンサンプリングがソース内で行われ、サンプリングの加重が生成されます。次に、ターゲットと加重がエクスペリメントに渡されます。

レシピに操作を追加するには：

右側のパネルで、+ 操作の追加をクリックしてレシピに個々の変換を追加するか、レシピをインポートをクリックして既存のレシピをインポートします。
操作を選択し、設定します。続いて、レシピに追加をクリックします。

ライブサンプルは、DataRobotがデータソースから新しいサンプルを取得し、操作を適用すると更新され、変換をリアルタイムで確認できます。
ライブサンプルへの影響を分析しながら、操作の追加を続けます。操作を追加するには、以下の操作を行います。
- 操作の追加をクリックします。
- アクションメニューを開いて、特定の操作とやり取りします。
- 「+ 操作の追加」ボタンの右側にある矢印をクリックし、レシピをインポートを選択します。これにより、既存のラングリングレシピから操作を追加できます。
完了したら、レシピをパブリッシュできます。

結合¶

結合操作を使用して、同じ接続インスタンスからアクセスできるデータセットを結合します。

テーブルまたはデータセットを結合するには：

右側のパネルで結合をクリックします。
+ データセットを選択をクリックして、接続インスタンスからデータセットを参照して選択します。
追加するデータセットを開いてプロファイリングしたら、選択をクリックします。
ドロップダウンから適切な結合タイプを選択します。
- 内部は、両方のデータセットで一致する値を持つ行（order_id列で一致する値を持つ行など）のみを返します。
- 左は、左側のデータセット（元のデータセット）からすべての行を返し、右側のデータセット（結合済み）で一致する値を持つ行のみを返します。
2つのデータセットの関係性を定義する結合条件を選択します。この例では、両方のデータセットはorder_idによって関連付けられています。
レシピに追加をクリックします。

集計¶

集計操作を使用して、次の数学的集計をデータセットに適用します（使用可能な集計は、特徴量タイプによって異なります）。

合計
最小
最大
平均
標準偏差
件数
一意の値の数
最も高い頻度（Snowflakeのみ）

集計を追加するには：

右側のパネルで集計をクリックします。
キーによるグループ化で、集計のグループ化に使用する特徴量を選択します。
集計する特徴量の下のフィールドをクリックし、ドロップダウンから特徴量を選択します。次に、集計関数の下のフィールドをクリックし、特徴量に適用する1つ以上の集計を選択します。
（オプション）+ 特徴量を追加をクリックして、このグループ内の追加特徴量に集計を適用します。
レシピに追加をクリックします。

レシピに操作を追加すると、DataRobotは_AggregationFunctionサフィックスが付加された元の名前を使用して、集計済み特徴量の名前を変更します。この例では、新しい列はage_maxとage_most_frequentです。

行をフィルター¶

行をフィルター操作を使用して、指定した値と条件に従ってデータセットの行をフィルターします。

行をフィルターするには：

右側のパネルで行をフィルターをクリックします。
定義された条件に一致する行を保持するか、除外するかを決定します。
フィルターする特徴量、条件タイプ、およびフィルターする値を選択して、フィルター条件を定義します。選択した列がハイライトされます。
（オプション）条件を追加をクリックして、追加のフィルター条件を定義します。
レシピに追加をクリックします。

重複行の削除¶

重複行を削除するには、右側のパネルで重複行の削除をクリックします。この操作はすぐにレシピに追加されて、ライブサンプルに適用され、重複した情報があるすべての行が削除されます。

検索と置換¶

検索して置換操作を使用すると、データセット内の特定の特徴量値をすばやく置換できます。これは、たとえば、データセットのタイプミスを修正する場合に役立ちます。

特徴量値を検索して置換するには：

右側のパネルで検索して置換をクリックします。
特徴量を選択で、ドロップダウンをクリックし、置換する値を含む特徴量を選択します。選択した列がハイライトされます。
検索で、一致条件（完全、部分、または正規表現）を選択し、置換する特徴量値を入力します。次に、置換で、新しい値を入力します。
レシピに追加をクリックします。

新しい特徴量を計算¶

新しい特徴量を計算操作を使用して、データセット内の既存の特徴量から新しい出力特徴量を作成します。ドメイン知識を適用することで、元のデータセットよりもビジネス問題をモデルに表現する機能を向上させる特徴量を作成できます。

新しい特徴量を計算するには：

右側のパネルで新しい特徴量を計算をクリックします。
新しい特徴量の名前を入力し、式で、選択したクラウドデータプラットフォームのスカラーサブクエリー、スカラー関数、またはウィンドウ関数を使用して特徴量を定義します。
SnowflakeBigQueryDatabricksSpark SQL
以下については、Snowflakeのドキュメントを参照してください。
以下については、BigQueryのドキュメントを参照してください。
以下については、Databricksのドキュメントを参照してください。
以下については、Spark SQLのドキュメントを参照してください。
- スカラーサブクエリー
- ウィンドウ関数
この例ではREGEXP_SUBSTRを使用して、age列の[<age_range_start> - <age_range_end>)から最初の数値を抽出し、またto_numberを使用して、文字列からの出力を数値に変換します。

式の形式

新しい特徴量式を計算する形式については、データ接続に基づく例を提供する式フィールドを参照してください。このフィールドは、データ接続に基づく例を提供します。
レシピに追加をクリックします。

特徴量名を変更する¶

データセットに含まれる1つまたは複数の特徴量の名前を変更するには、特徴量名の変更操作を使用します。

特徴量の名前を変更するには：

右パネルの特徴量名の変更をクリックします。

ライブサンプルから特定の特徴量名を変更する

名前を変更する特徴量の横にあるアクションメニュー をクリックすることもできます。これにより、特徴量フィールドが既に入力されている状態で、操作パラメーターを、右側パネルで開きます。
特徴量名でドロップダウンをクリックし、名前を変更したい特徴量を選択します。続いて、2番目のフィールドに新しい特徴量名を入力します。
（オプション）追加特徴量の名前を変更するには、特徴量を追加をクリックします
レシピに追加をクリックします。

特徴量の削除¶

データセットから特徴量を削除するには、特徴量の削除操作を使用します。

特徴量を削除するには：

右パネルの特徴量の削除をクリックします。

ライブサンプルから特定の特徴量を削除する

削除する特徴量の横にあるアクションメニュー をクリックすることもできます。これにより、特徴量フィールドが既に入力されている状態で、操作パラメーターを、右側パネルで開きます。
特徴量名でドロップダウンをクリックし、名前を変更したい特徴量を選択します。特徴量の選択が終わったら、ドロップダウンの外をクリックします。
レシピに追加をクリックします。

時間認識操作¶

時間認識操作については、時系列データのラングリングを参照してください。これらの操作には以下が含まれます。

操作アクション¶

レシピに操作を追加した後、個々の操作の右側にあるアクションメニューにアクセスして、以下の操作を行うことができます。

アクション	説明
編集	操作の条件を編集できます。
この操作までをプレビュー	選択した操作以上の操作のみをライブプレビューに適用します。
+ 上への操作の追加	選択した操作の真上に操作を追加します。
+ 下への操作の追加	選択した操作の真下に操作を追加します。
レシピを上にインポート	選択した操作の真上にある既存のレシピから操作をインポートします。
レシピを下にインポート	選択した操作の真下にある既存のレシピから操作をインポートします。
重複	選択した操作のコピーを作成します。
削除	レシピから操作を削除します。

この操作までをプレビュー¶

この操作アクションまでのプレビューアクションを使用すると、ライブサンプル上でさまざまな操作の組み合わせを素早くテストすることができます。 この操作までプレビューを選択すると、レシピパネルにアクションが追加されます。ライブプレビューでは、このアクションの上に表示されている操作のみが表示されるため、操作の下／上にアクションをドラッグ＆ドロップして、異なる操作がプレビューにどのように影響するかを確認できます。

操作を適用せずにプレビューを表示するには、レシピの一番上にアクションをドラッグ＆ドロップします。

備考

この操作は、レシピがパブリッシュされると無視され、同じレシピで作業している他のメンバーには見えません。

+ 操作を下に追加アクションをこの操作までをプレビューの直上の操作に使用した場合、操作はこの操作までをプレビューの下に追加され、プレビューには適用されません。 + 操作を下に追加アクションをこの操作までをプレビューの直下の操作に使用した場合、操作はこの操作までをプレビューの下に追加され、プレビューには適用されません。

操作の並べ替え¶

ラングリングレシピのすべての操作は、順番に適用されるため、表示される順序は、出力データセットの結果に影響します。

操作を新たな場所に移動するには、移動する操作をクリックしてホールドし、新たな位置にドラッグします。

ライブサンプルが更新され、新たな順序が反映されます。

次のステップ¶

ここから、次のことができます。

レシピをデータソースにパブリッシュし、新しい出力データセットを生成します。

続けて読む¶

このページで説明されているトピックの詳細については、以下を参照してください。

DataRobot Classicのサマリー統計およびヒストグラムの説明。

更新しました 2025年4月9日

このページは役に立ちましたか？

ありがとうございます。どのような点が役に立ちましたか？

より良いコンテンツを提供するには、どうすればよいでしょうか？

アンケートにご協力いただき、ありがとうございました。