レシピのパブリッシュ¶
レシピが構築され、ライブサンプルがモデリング用に準備できたら、レシピをパブリッシュして、クエリーとしてデータソースにプッシュダウンできます。 そこで、クエリーは、データセット全体にレシピを適用し、新しい出力データセットをマテリアライズすることによって実行されます。 出力はDataRobotに返され、ユースケースに追加されます。
重要な追加情報については、関連する注意事項を参照してください。
大規模データセットのパブリッシュ
20GBを超える入力データセットのラングリングレシピをパブリッシュする際、データの変換と分析をDataRobotのコンピューティングエンジンにプッシュダウンできるようになりました。これにより、S3に保存されたCSVおよびParquetファイルに対してシームレスでスケーラブル、かつセキュアなデータ処理を行うことができます。この機能はAWS SaaSおよびVPC環境でのみ利用可能です。
デフォルトではオフの機能フラグ:データエンジンでSparkの分散処理を有効にする
レシピをパブリッシュするには:
-
データセットのラングリングが完了したら、レシピのアクションドロップダウンを開き、パブリッシュを選択します。
-
出力データセットの名前を入力します。 DataRobotはこの名前を使用して、AIカタログとデータレジストリにデータセットを登録します。
-
(オプション) 自動ダウンサンプリングを設定します。
-
パブリッシュをクリックします。
DataRobotはパブリッシュされたレシピをSnowflakeに送信し、そこでソースデータに適用されて新しい出力データセットが作成されます。 DataRobotでは、出力データセットはデータレジストリに登録され、ユースケースに追加されます。
データソースにパブリッシュ¶
ラングリングレシピをパブリッシュすると、これらの操作と設定が仮想ウェアハウスにプッシュダウンされ、その環境内で指定されたセキュリティ、コンプライアンス、財務管理を活用できるようになります。 このオプションを選択すると、DataRobotのデータレジストリとお使いのデータソースで出力動的データセットがマテリアライズされます。
必要な権限
選択したスキーマとデータベースへのwrite権限が必要です。
ソース内マテリアライズを有効にするには(この例ではSnowflakeを使用):
-
パブリッシュ設定モーダルで、Snowflakeにパブリッシュをクリックします。
-
ドロップダウンを使用して、適切なSnowflakeデータベースとスキーマを選択します。
-
ここから、次のことができます。
- パブリッシュをクリックして、レシピのパブリッシュを終了します。
- ダウンサンプリングを設定します。
ダウンサンプリングを設定¶
自動ダウンサンプリングは、ランダムサンプリングを使用してマジョリティークラスのサイズを減らすことによってデータセットのサイズを減らすために使用される技法です。 ソースデータのサイズが DataRobotのファイルサイズ要件のサイズを超える場合は、自動ダウンサンプリングを有効にすることを検討してください。
ダウンサンプリングを設定するには:
スマートダウンサンプリングを設定¶
スマートダウンサンプリングを使用すると、ラングリングレシピをパブリッシュする際に出力データセットのサイズを縮小できます。 スマートダウンサンプリングは、精度を犠牲にすることなく、モデルの適合にかかる時間を短縮するデータサイエンス技術です。不均衡なデータに特に有用です。 このダウンサンプリング手法は、クラスごとにサンプルを階層化することにより、クラスの不均衡を考慮します。 ほとんどの場合、マイノリティークラス全体が保存され、サンプリングはマジョリティークラスにのみ適用されます。 一般的に、マイノリティークラスでは精度が重視されるので、この手法ではモデルの精度を維持しながら、トレーニングデータセットのサイズを大幅に削減(モデリング時間とコストを削減)します。
スマートダウンサンプリングを設定するには:
-
自動ダウンサンプリングトグルを有効にして、スマートをクリックします。
-
次のフィールドに入力します。
- ターゲット:ターゲット特徴量(二項分類またはゼロ過剰特徴量)を選択します。 データセットにどちらの特徴量タイプも含まれていない場合は、スマートダウンサンプリングを適用するオプションを使用できません。
- 加重特徴量:(オプション)加重特徴量の名前を入力します。 ダウンサンプリングの加重を含むこの列が計算され、スマートダウンサンプリングの結果として出力データセットに追加されます。
- 最大行数または推定サイズ(MB): これらの値はリンクされているため、一方のフィールドの値を変更すると、もう一方のフィールドも自動的に更新されます。 出力データセットがファイルサイズ制限以下であることを確認するには、 DataRobotのデータセット要件を参照してください。
備考
ターゲット列の値としてnullを含む行は、スマートダウンサンプリングの後に除外されます。
再ラングリングされたデータセットのパブリッシュ¶
以前にラングリングしてパブリッシュしたデータセットのレシピをパブリッシュする場合は、2つの追加設定があります。
| 設定 | 説明 |
|---|---|
| 新しいデータセットバージョンとしてパブリッシュ | パブリッシュされると,出力データセットは、ラングリングされたデータセットの新しいバージョンとして登録されます。 |
| 新しいデータセットとしてパブリッシュ | パブリッシュされると,出力データセットは別のデータセットとして登録されます。 |
続けて読む¶
このページで説明されているトピックの詳細については、以下を参照してください。








