NextGen UIに関するドキュメント > データプレパレーション > データのラングリング > レシピのパブリッシュ

レシピのパブリッシュ¶

レシピが構築され、ライブサンプルがモデリング用に準備できたら、レシピをパブリッシュして、クエリーとしてデータソースにプッシュダウンできます。そこで、クエリーは、データセット全体にレシピを適用し、新しい出力データセットをマテリアライズすることによって実行されます。出力はDataRobotに返され、ユースケースに追加されます。

その他の重要情報については、関連する注意事項を参照してください。

大規模データセットのパブリッシュ

20GBを超える入力データセットのラングリングレシピをパブリッシュする際、データの変換と分析をDataRobotのコンピューティングエンジンにプッシュダウンできるようになりました。これにより、S3に保存されたCSVおよびParquetファイルに対してシームレスでスケーラブル、かつセキュアなデータ処理を行うことができます。この機能はAWS SaaSおよびVPC環境でのみ利用可能です。

デフォルトではオフの機能フラグ：データエンジンでSparkの分散処理を有効にする

レシピをパブリッシュするには：

データセットのラングリングが完了したら、レシピのアクションドロップダウンを開き、パブリッシュを選択します。
出力データセットの名前を入力します。 DataRobotはこの名前を使用して、AIカタログとデータレジストリにデータセットを登録します。
（オプション）自動ダウンサンプリングを設定します。
パブリッシュをクリックします。

DataRobotはパブリッシュされたレシピをSnowflakeに送信し、そこでソースデータに適用されて新しい出力データセットが作成されます。 DataRobotでは、出力データセットはデータレジストリに登録され、ユースケースに追加されます。

データソースにパブリッシュ¶

ラングリングレシピをパブリッシュすると、これらの操作と設定が仮想ウェアハウスにプッシュダウンされ、その環境内で指定されたセキュリティ、コンプライアンス、財務管理を活用できるようになります。このオプションを選択すると、DataRobotのデータレジストリとお使いのデータソースで出力動的データセットがマテリアライズされます。

必要な権限

選択したスキーマとデータベースへのwrite権限が必要です。

ソース内マテリアライズを有効にするには（この例ではSnowflakeを使用）：

パブリッシュ設定モーダルで、Snowflakeにパブリッシュをクリックします。
ドロップダウンを使用して、適切なSnowflakeデータベースとスキーマを選択します。
ここから、次のことができます。
- レシピをパブリッシュします。
- ダウンサンプリングを設定します。

ダウンサンプリングを設定¶

自動ダウンサンプリングは、ランダムサンプリングを使用してマジョリティークラスのサイズを減らすことによってデータセットのサイズを減らすために使用される技法です。ソースデータのサイズが DataRobotのファイルサイズ要件のサイズを超える場合は、自動ダウンサンプリングを有効にすることを検討してください。

ダウンサンプリングを設定するには：

パブリッシュ設定モーダルで自動ダウンサンプリングトグルを有効にします。
最大行数と推定サイズ（メガバイト単位）を指定します。

スマートダウンサンプリングを設定¶

スマートダウンサンプリングを使用すると、ラングリングレシピをパブリッシュする際に出力データセットのサイズを縮小できます。スマートダウンサンプリングは、精度を犠牲にすることなく、モデルの適合にかかる時間を短縮するデータサイエンス技術です。不均衡なデータに特に有用です。このダウンサンプリング手法は、クラスごとにサンプルを階層化することにより、クラスの不均衡を考慮します。ほとんどの場合、マイノリティークラス全体が保存され、サンプリングはマジョリティークラスにのみ適用されます。一般的に、マイノリティークラスでは精度が重視されるので、この手法ではモデルの精度を維持しながら、トレーニングデータセットのサイズを大幅に削減（モデリング時間とコストを削減）します。

スマートダウンサンプリングを設定するには：

自動ダウンサンプリングトグルを有効にして、スマートをクリックします。
ターゲット特徴量（二値分類またはゼロ過剰特徴量）を選択します。データセットにどちらの特徴量タイプも含まれていない場合は、スマートダウンサンプリングを適用するオプションを使用できません。
（オプション）加重特徴量の名前を入力します。ダウンサンプリングの加重を含むこの列が計算され、スマートダウンサンプリングの結果として出力データセットに追加されます。
目的の最大行数または推定サイズ（MB）を入力します。これらの値はリンクされているので、1つのフィールドの値を変更すると、他のフィールドも自動的に更新されます。出力データセットがファイルサイズ制限以下であることを確認するには、 DataRobotのデータセット要件を参照してください。

備考

ターゲット列の値としてnullを含む行は、スマートダウンサンプリングの後に除外されます。

次のステップ¶

ここから、次のことができます。

続けて読む¶

このページで説明されているトピックの詳細については、以下を参照してください。

更新しました 2025年4月2日

このページは役に立ちましたか？

ありがとうございます。どのような点が役に立ちましたか？

より良いコンテンツを提供するには、どうすればよいでしょうか？

アンケートにご協力いただき、ありがとうございました。