Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

アセットの状態

DataRobot内のデータアセットは、次のいずれかとなります。

  • スナップショット:DataRobotは、データセットのコピーをインポートしてAIカタログに保存しました。
  • 動的:DataRobotは、「リアルタイム」でデータセットに接続しており、データセットのコピーが必要な場合にのみデータベースから取得します。

DataRobotにデータアセットを登録すると、データセットの状態とタイプを示すバッジがエントリーに追加されます。 各バッジの説明については、次の表を参照してください。

状態 バッジ 説明 サポートされている取込み方法
スナップショット、動的 SPARK Sparkクエリーから構築されたデータセット。 Spark SQL
スナップショット SNAPSHOT スナップショットがあるデータセット。 URL、データベース
スナップショット STATIC スナップショットを含む静的ファイル。

データステージを使用してアップロードされたデータセットにもSTATICバッジが表示されますが、FROMフィールドにはstage://{stageId}/{filename}が表示されます。
ローカルファイル
動的 DYNAMIC スナップショットのないデータセット。 URL、データベース

スナップショット

スナップショットは、 _特定の時点_のデータをキャプチャします。 スナップショットをインポートまたは作成すると、DataRobotはデータアセットから取得し、そのコピーをカタログに登録します。

長所:

  • スナップショットデータセットでプロファイルとモデルを作成できます。
  • データセットのバージョン履歴にアクセスできます。

短所:

  • データの鮮度 — データセットが頻繁に更新される場合、スナップショットされたデータは元になるソースデータから切り離されているため、すぐに古くなってしまいます。
  • データのガバナンス — スナップショットを作成すると、データのコピーがDataRobotに保存され、そのコピーへのアクセス権を元のソースデータにアクセスできないユーザーと共有できるため、組織による厳密なアクセス権の管理から逃れることができます。 さらに、データを保護するためにDataRobotで使用されるセキュリティメカニズムは、組織が元のソースのデータに使用するもの(暗号化など)と同じとは限りません。

スナップショットのスケジュール

スナップショットのデータセットを最新の状態に保つため、 定期的に自動更新することができます。また、データセットの系統を維持し、DataRobotの全体的なガバナンス機能を強化するために、自動的にバージョン管理されます。

動的

動的とは、ソースデータへの 「リアルタイム」接続 が存在することです。したがって、DataRobotがデータベーステーブル/ビューを追加しても、マテリアライズされたデータエントリーは作成されません。 プロジェクトの作成や予測などでデータのコピーが必要な場合、DataRobotは最新バージョンのデータを使用します。 データセットはカタログでDYNAMICバッジを保持します。

長所:

  • プロジェクトの作成や予測を行う際、DataRobotは最新のデータを使用します。
  • 自動再トレーニングなどのタスクを実行できます。

短所:

  • プロファイリングとバージョン管理はサポートされていません。

動的データセットからスナップショットを作成する

必要に応じて、動的データセットから手動で スナップショットを作成できます。

動的データセットからスナップショットを作成するとどうなりますか?

AIカタログでは、データセットはSNAPSHOTとマークされます。すべてのSNAPSHOTデータセットと同様に、そこから新しいスナップショットを作成できます。 このようなデータセットの場合、プロジェクトの作成にはスナップショットのみが使用されます。


更新しました September 28, 2023