レシピのパブリッシュ¶
レシピが構築され、ライブサンプルがモデリング用に準備できたら、レシピをパブリッシュして、クエリーとしてデータソースにプッシュダウンできます。 そこで、クエリーは、データセット全体にレシピを適用し、新しい出力データセットをマテリアライズすることによって実行されます。 出力はDataRobotに返され、ユースケースに追加されます。
その他の重要情報については、関連する 注意事項を参照してください。
Publishing large datasets
20GBを超える入力データセットのラングリングレシピをパブリッシュする際、データの変換と分析をDataRobotのコンピューティングエンジンにプッシュダウンできるようになりました。これにより、S3に保存されたCSVおよびParquetファイルに対してシームレスでスケーラブル、かつセキュアなデータ処理を行うことができます。この機能はAWS SaaSおよびVPC環境でのみ利用可能です。
デフォルトではオフの機能フラグ:データエンジンでSparkの分散処理を有効にする
レシピをパブリッシュするには:
-
データセットのラングリングが完了したら、レシピのアクションドロップダウンを開き、パブリッシュを選択します。
-
出力データセットの名前を入力します。 DataRobotはこの名前を使用して、AIカタログとデータレジストリにデータセットを登録します。
-
(オプション) 自動ダウンサンプリングを設定します。
-
パブリッシュをクリックします。
DataRobotはパブリッシュされたレシピをSnowflakeに送信し、そこでソースデータに適用されて新しい出力データセットが作成されます。 DataRobotでは、出力データセットはデータレジストリに登録され、ユースケースに追加されます。
データソースにパブリッシュ¶
ラングリングレシピをパブリッシュすると、これらの操作と設定が仮想ウェアハウスにプッシュダウンされ、その環境内で指定されたセキュリティ、コンプライアンス、財務管理を活用できるようになります。 このオプションを選択すると、DataRobotのデータレジストリとお使いのデータソースで出力動的データセットがマテリアライズされます。
必要な権限
選択したスキーマとデータベースへのwrite
権限が必要です。
ソース内マテリアライズを有効にするには(この例ではSnowflakeを使用):
-
パブリッシュ設定モーダルで、Snowflakeにパブリッシュをクリックします。
-
ドロップダウンを使用して、適切なSnowflakeデータベースとスキーマを選択します。
-
ここから、次のことができます。
- レシピをパブリッシュします。
- ダウンサンプリングを設定します。
ダウンサンプリングを設定¶
自動ダウンサンプリングは、ランダムサンプリングを使用してマジョリティークラスのサイズを減らすことによってデータセットのサイズを減らすために使用される技法です。 ソースデータのサイズが DataRobotのファイルサイズ要件のサイズを超える場合は、自動ダウンサンプリングを有効にすることを検討してください。
ダウンサンプリングを設定するには:
-
パブリッシュ設定モーダルで自動ダウンサンプリングトグルを有効にします。
-
最大行数と推定サイズ(メガバイト単位)を指定します。
スマートダウンサンプリングを設定¶
スマートダウンサンプリングを使用すると、ラングリングレシピをパブリッシュする際に出力データセットのサイズを縮小できます。 スマートダウンサンプリングは、精度を犠牲にすることなく、モデルの適合にかかる時間を短縮するデータサイエンス技術です。不均衡なデータに特に有用です。 このダウンサンプリング手法は、クラスごとにサンプルを階層化することにより、クラスの不均衡を考慮します。 ほとんどの場合、マイノリティークラス全体が保存され、サンプリングはマジョリティークラスにのみ適用されます。 一般的に、マイノリティークラスでは精度が重視されるので、この手法ではモデルの精度を維持しながら、トレーニングデータセットのサイズを大幅に削減(モデリング時間とコストを削減)します。
スマートダウンサンプリングを設定するには:
-
自動ダウンサンプリングトグルを有効にして、スマートをクリックします。
-
ターゲット特徴量(二値分類またはゼロ過剰特徴量)を選択します。 データセットにどちらの特徴量タイプも含まれていない場合は、スマートダウンサンプリングを適用するオプションを使用できません。
-
(オプション)加重特徴量の名前を入力します。 ダウンサンプリングの加重を含むこの列が計算され、スマートダウンサンプリングの結果として出力データセットに追加されます。
-
目的の最大行数または推定サイズ(MB)を入力します。 これらの値はリンクされているので、1つのフィールドの値を変更すると、他のフィールドも自動的に更新されます。 出力データセットがファイルサイズ制限以下であることを確認するには、 DataRobotのデータセット要件を参照してください。
備考
ターゲット列の値としてnull
を含む行は、スマートダウンサンプリングの後に除外されます。
次のステップ¶
ここから、次のことができます。
続けて読む¶
このページで説明されているトピックの詳細については、以下を参照してください。