Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

レシピのパブリッシュ

レシピが構築され、ライブサンプルがモデリング用に準備できたら、レシピをパブリッシュして、クエリーとしてデータソースにプッシュダウンできます。 そこで、クエリーは、データセット全体にレシピを適用し、新しい出力データセットをマテリアライズすることによって実行されます。 出力はDataRobotに返され、ユースケースに追加されます。

その他の重要情報については、関連する 注意事項を参照してください。

レシピをパブリッシュするには:

  1. データセットのラングリングが完了したら、レシピをパブリッシュをクリックします。

  2. 出力データセットの名前を入力します。 DataRobotはこの名前を使用して、AIカタログとデータレジストリにデータセットを登録します。

  3. (オプション) 自動ダウンサンプリングを設定します。

  4. パブリッシュをクリックします。

    DataRobotはパブリッシュされたレシピをSnowflakeに送信し、そこでソースデータに適用されて新しい出力データセットが作成されます。 DataRobotでは、出力データセットはデータレジストリに登録され、ユースケースに追加されます。

データソースにパブリッシュ

パブリックプレビュー

Databricksのソース内マテリアライズと、関連する機能フラグは、デフォルトでオンになっています。

機能フラグ:

  • Databricksドライバーを有効にする
  • Databricksのラングリングを有効にする
  • ワークベンチでDatabricksのソース内マテリアライズを有効にする
  • ワークベンチで動的データセットを有効にする

ラングリングレシピをパブリッシュすると、これらの操作と設定が仮想ウェアハウスにプッシュダウンされ、その環境内で指定されたセキュリティ、コンプライアンス、財務管理を活用できるようになります。 このオプションを選択すると、DataRobotのデータレジストリとお使いのデータソースで出力動的データセットがマテリアライズされます。

必要な権限

選択したスキーマとデータベースへのwrite権限が必要です。

ソース内マテリアライズを有効にするには(この例ではSnowflakeを使用):

  1. パブリッシュ設定モーダルで、Snowflakeにパブリッシュをクリックします。

  2. ドロップダウンを使用して、適切なSnowflakeデータベーススキーマを選択します。

  3. ここから、次のことができます。

ダウンサンプリングを設定

自動ダウンサンプリングは、ランダムサンプリングを使用してマジョリティークラスのサイズを減らすことによってデータセットのサイズを減らすために使用される技法です。 ソースデータのサイズが DataRobotのファイルサイズ要件のサイズを超える場合は、自動ダウンサンプリングを有効にすることを検討してください。

ダウンサンプリングを設定するには:

  1. パブリッシュ設定モーダルで自動ダウンサンプリングトグルを有効にします。

  2. 最大行数推定サイズ(メガバイト単位)を指定します。

スマートダウンサンプリングを設定

パブリックプレビュー

ワークベンチでのスマートダウンサンプリングは、デフォルトではオンになっています。

機能フラグ:ラングリングのパブリッシュ設定でスマートダウンサンプリングを有効にします

スマートダウンサンプリングを使用すると、ラングリングレシピをパブリッシュする際に出力データセットのサイズを縮小できます。 スマートダウンサンプリングは、精度を犠牲にすることなく、モデルの適合にかかる時間を短縮するデータサイエンス技術です。不均衡なデータに特に有用です。 このダウンサンプリング手法は、クラスごとにサンプルを階層化することにより、クラスの不均衡を考慮します。 ほとんどの場合、マイノリティークラス全体が保存され、サンプリングはマジョリティークラスにのみ適用されます。 一般的に、マイノリティークラスでは精度が重視されるので、この手法ではモデルの精度を維持しながら、トレーニングデータセットのサイズを大幅に削減(モデリング時間とコストを削減)します。

スマートダウンサンプリングを設定するには:

  1. 自動ダウンサンプリングトグルを有効にして、スマートをクリックします。

  2. ターゲット特徴量(二値分類またはゼロ過剰特徴量)を選択します。 データセットにどちらの特徴量タイプも含まれていない場合は、スマートダウンサンプリングを適用するオプションを使用できません。

  3. (オプション)加重特徴量の名前を入力します。 ダウンサンプリングの加重を含むこの列が計算され、スマートダウンサンプリングの結果として出力データセットに追加されます。

  4. 目的の最大行数または推定サイズ(MB)を入力します。 これらの値はリンクされているので、1つのフィールドの値を変更すると、他のフィールドも自動的に更新されます。 出力データセットがファイルサイズ制限以下であることを確認するには、 DataRobotのデータセット要件を参照してください。

備考

ターゲット列の値としてnullを含む行は、スマートダウンサンプリングの後に除外されます。

次のステップ

ここから、次のことができます。

続けて読む

このページで説明されているトピックの詳細については、以下を参照してください。


更新しました February 6, 2024