アセットの状態¶
DataRobot内のデータアセットは、次のいずれかとなります。
- スナップショット:DataRobotは、データセットのコピーをインポートしてAIカタログに保存しました。
- 動的:DataRobotは、「リアルタイム」でデータセットに接続しており、データセットのコピーが必要な場合にのみデータベースから取得します。
DataRobotにデータアセットを登録すると、データセットの状態とタイプを示すバッジがエントリーに追加されます。 各バッジの説明については、次の表を参照してください。
状態 | バッジ | 説明 | サポートされている取込み方法 |
---|---|---|---|
スナップショット、動的 | SPARK |
Sparkクエリーから構築されたデータセット。 | Spark SQL |
スナップショット | SNAPSHOT |
スナップショットがあるデータセット。 | URL、データベース |
スナップショット | STATIC |
スナップショットを含む静的ファイル。 データステージを使用してアップロードされたデータセットにも STATIC バッジが表示されますが、FROM フィールドにはstage://{stageId}/{filename} が表示されます。 |
ローカルファイル |
動的 | DYNAMIC |
スナップショットのないデータセット。 | URL、データベース |
スナップショット¶
スナップショットは、 _特定の時点_のデータをキャプチャします。 スナップショットをインポートまたは作成すると、DataRobotはデータアセットから取得し、そのコピーをカタログに登録します。
長所:
- スナップショットデータセットでプロファイルとモデルを作成できます。
- データセットのバージョン履歴にアクセスできます。
短所:
- データの鮮度 — データセットが頻繁に更新される場合、スナップショットされたデータは元になるソースデータから切り離されているため、すぐに古くなってしまいます。
- データのガバナンス — スナップショットを作成すると、データのコピーがDataRobotに保存され、そのコピーへのアクセス権を元のソースデータにアクセスできないユーザーと共有できるため、組織による厳密なアクセス権の管理から逃れることができます。 さらに、データを保護するためにDataRobotで使用されるセキュリティメカニズムは、組織が元のソースのデータに使用するもの(暗号化など)と同じとは限りません。
スナップショットのスケジュール
スナップショットのデータセットを最新の状態に保つため、 定期的に自動更新することができます。また、データセットの系統を維持し、DataRobotの全体的なガバナンス機能を強化するために、自動的にバージョン管理されます。
動的¶
動的とは、ソースデータへの 「リアルタイム」接続 が存在することです。したがって、DataRobotがデータベーステーブル/ビューを追加しても、マテリアライズされたデータエントリーは作成されません。 プロジェクトの作成や予測などでデータのコピーが必要な場合、DataRobotは最新バージョンのデータを使用します。 データセットはカタログでDYNAMIC
バッジを保持します。
長所:
- プロジェクトの作成や予測を行う際、DataRobotは最新のデータを使用します。
- 自動再トレーニングなどのタスクを実行できます。
短所:
- プロファイリングとバージョン管理はサポートされていません。
動的データセットからスナップショットを作成する
必要に応じて、動的データセットから手動で スナップショットを作成できます。
動的データセットからスナップショットを作成するとどうなりますか?
AIカタログでは、データセットはSNAPSHOT
とマークされます。すべてのSNAPSHOT
データセットと同様に、そこから新しいスナップショットを作成できます。 このようなデータセットの場合、プロジェクトの作成にはスナップショットのみが使用されます。