レジストリのデータを探索¶
データの登録が完了したら、データセットを選択してさまざまなインサイトを表示し、データセットを操作できます。
データレジストリには2種類のデータが保存されています。
- マテリアライズされたデータ:このデータセットには「静的」、「スナップショット」、または「Spark」バッジが付いています。 インポート時の登録プロセスの一部として、データセットに対しEDA1が実行されるため、さらに多くのインサイトが得られます。
- マテリアライズされていないデータ:このデータセットに「動的」バッジが付いています。 これは、データ接続を使用して追加され、現在もデータソースに保存されているデータです。 インポート時にサンプルに対してEDA1を実行することを選択しなかった場合、取得できるインサイトは少なくなります。
メタデータ情報¶
情報タブでは、データセットの概要を確認したり、識別情報を追加したり、インパクト分析を参照したりできます。

要素 | 説明 | |
---|---|---|
1 | 詳細情報 | 名前と説明を更新するか、検索に使用するタグを追加します。 |
2 | データセット情報 | 行数、その右に特徴量数、およびその他の詳細が表示されます。 |
3 | 検出を実行する | 個人データ検出を実行して、データセットから個人データを識別し、検出された場合は削除します。 |
4 | SQLクエリー | データセットの作成に使われたSQLクエリー。 |
5 | スナップショットを更新 | スケジュールされたスナップショットを追加します。 |
6 | インパクト分析 | DataRobotの他のエンティティが現在のアセットにどのように関連しているか、つまり依存しているかを確認します。 |
個人データ検出¶
規制された特定のユースケースでは、個人情報をモデルの特徴量として使用することは禁止されています。 DataRobotは、特定の種類の個人情報の検出を自動化して、データセットにこの情報が誤って含まれないように保護するレイヤーを提供し、モデリングおよび予測時に使用されないようにします。
データセットがデータレジストリを通して取り込まれた後、各特徴量に個人情報が存在するかどうかをチェックするオプションがあります。 その結果、データセットのすべてのセルを、この種の情報を識別するためにDataRobotが開発したパターンと照合する処理が行われます。 見つかった場合、警告メッセージが表示され、各特徴量で検出された個人情報の種類を知らせるとともに、今後どのように進めるかを決めるのに役立つサンプル値を提供します。 さらに、DataRobotは新しい特徴量セットを作成します。これは有用な特徴量と同等ですが、個人情報を含む特徴量がすべて削除されています。 新しいセットの名前は有用な特徴量 - 個人情報を削除です。
注意
このツールは個人データのすべてのインスタンスを識別することを保証するものではありません。 これは、自身の個人データ検出制御を補足することを目的としています。
現在、DataRobotは次のフィールドでの検出をサポートしています。
- Eメールアドレス
- IPv4アドレス
- 米国の電話番号
- 社会保障番号
データレジストリのデータセットで個人情報の検出を実行するには、情報ページに移動して検出を実行するをクリックします。

-
データセットで個人情報が検出されなかった場合、その旨のメッセージが表示されます。
-
データセット内で個人データが検出されると注意メッセージが表示されます。 詳細をクリックすると、検出された個人データに関する詳細情報が表示されます。却下をクリックすると、注意が消えて再度表示されなくなります。 警告は、プロフィールタブの列でも強調表示されます。
インパクト分析¶
インパクト分析では、アプリケーション内の他のエンティティが現在のアセットにどのように関連しているか、つまり依存しているかを示します。 これはいくつかの理由で役立ち、次のことが可能になります。
- 項目が使用されているプロジェクトの数に基づいて、その項目の人気度を表示できます。
- 変更または削除を行った場合に影響を受ける可能性のある他のエンティティを把握できます。
- エンティティがどのように使用されているかを把握できます。
インパクト分析を見るには、情報タブの一番下までスクロールします。 タイルをクリックしてサマリーの詳細を表示し、関連するボタン(以下の例ではユースケースを開く)をクリックして特定の詳細を表示します。

アセットにアクセスする権限がない場合は、アセットを表すエントリを表示できますが、エントリは追加情報を開示しません。
必要に応じて、次のすべての関連付けが(頻度値とともに)報告されます。
- プロジェクト
- 予測データセット
- 特徴量探索に関する設定
- 時系列カレンダー
- Spark SQLクエリー
- 外部モデルパッケージ
- デプロイの再トレーニング
この機能は、個々のデータセットバージョンのバージョン履歴タブからも利用できます。
プロフィール¶
プロフィールタブを使用して、データセットの列名と行データをプレビューできます。 列名の検索や確認に利用できます。

情報タブとプロフィールタブ
情報タブには、データの合計行数、特徴量数、サイズが表示されます。 プロフィールタブには、1MBの未処理サンプルに基づくデータのみプレビュー表示されますが、特徴量の型と詳細は500MBのサンプルに基づいて表示されます。 つまり、プロフィールタブに表示される行数は、情報タブに表示される行数と一致しない場合があります。
プレビューは最大1MBのデータのランダムなサンプルであり、元のデータの順序とは異なる場合があります。 元の全データを確認するには、データセットをダウンロードオプションを使用します。
特定の特徴量の詳細を表示するには、画面上で目的の特徴量にスクロールしてクリックします。

特徴量セット¶
データレジストリ内の任意のデータセットの特徴量に対して、新しい特徴量セットと特徴量変換を作成できます。 ツールを使用するには、データレジストリでデータセットを選択し、左側のパネルで特徴量セットを選択します。
備考
特徴量セットを作成するには、データセットに対するオーナーまたはエディターのアクセス権が必要です。
特徴量セットタブからは、特徴量の型変換を作成するツールにもアクセスできます。 特徴量の型の割り当てはEDAで検出された値に基づきますが、型を変更する必要が生じる場合があります。 詳細については、特徴量の変換ドキュメントを参照してください。

要素 | 説明 | |
---|---|---|
1 | 特徴量セットのドロップダウン | DataRobotが生成した、またはカスタムの特徴量セットのリストを表示します。 |
2 | 名前の変更 / 削除 | 特徴量セットのドロップダウンで選択したカスタム特徴量セットの名前を変更または削除します。 DataRobotのデフォルトの特徴量セットに変更を加えることはできません。 |
3 | 検索 | 特定の特徴量を検索します。 |
4 | + 選択内容から特徴量セットを新規作成 | 現在選択されている特徴量から新しい特徴量セットを作成します。 |
特徴量セットを作成するには:
-
特徴量名の左のチェックボックスを使用して、特徴量のセットを選択します。
-
最初の特徴量を選択するとアクティブになる選択から新しい特徴量セットを作成リンクをクリックします。
-
表示されるダイアログに新しいリストの名前を入力し、送信をクリックします。 新しいセットがドロップダウンで使用可能になります。
バージョン履歴¶
バージョン履歴タブでは、選択したアセットのすべてのバージョンを一覧表示します。

要素 | 説明 | |
---|---|---|
1 | + データセットのリフレッシュをスケジュール | スケジュールされたスナップショットを追加します。 |
2 | データセットのバージョン情報 | 個々のデータセットバージョンについて、行数、その右に特徴量数、およびその他の詳細が表示されます。 |
3 | スナップショットのステータス | データセットバージョンのスナップショットステータス。正常に完了した場合は緑、失敗した場合は赤、元のバージョンにスナップショットがない場合はグレー。 |
4 | アクションメニュー | データセットのバージョンをダウンロードまたは削除できます。 |
スナップショットを更新¶
本機能の提供について
セルフマネージドAIプラットフォームでのインストールの場合、モデル管理サービスもインストールする必要があります。
必要に応じてデータセットが常にデータソースと同期できるように、DataRobotでは自動化されたスケジュールされた更新メカニズムが提供されています。 データレジストリでは、コンシューマーレベルより上のデータセットアクセス権を持つユーザーであれば、スナップショットを日単位、週単位、月単位、年単位でスケジュールできます。 ファイルを除く任意のデータアセットタイプ(JDBC、Spark、およびURL)を更新できます。
更新タスクのスケジュール¶
複数の更新タスクをスケジュールできます。制限はデータセットとユーザーに個別に適用されます。
データセットのスナップショットをスケジュールするには:
-
データレジストリから、1つ以上の更新タスクをスケジュールしたいアセットを選択します。
-
更新をスケジュールリンクをクリックしてスケジューラーを展開します。
-
アセットソースがJDBCの場合、ログインダイアログが表示されます。 アセットに関連付けられているアカウント資格情報を選択します。 DataRobotは、スケジュール済みタスクを実行するたびにこれらの資格情報を使用します。 資格情報が受け入れられると(または資格情報が必要ない場合も)、スケジューラーが開きます。
-
フィールドに入力してタスクを設定します。
要素 説明 1 名前 更新ジョブの名前を入力します(またはデフォルトのままにします)。 2 カレンダーピッカー 間隔設定の基準を設定します。 3 間隔 カレンダー設定に基づいて、間隔のドロップダウンで頻度を毎日、毎週、毎月、または毎年に設定します。 選択した日の時刻は、ジョブがスケジュールされたときのタイムスタンプに常に設定されます。 4 サマリー 選択されたスケジュール済みタスクのサマリー(間隔、アクティブか一時停止中かなど)が表示されます。この情報はDataRobotから提供され、ジョブに変更を加えると更新されます。 -
保存をクリックしてアセットの更新をスケジュールします。 最後の実行ステータスは、スケジュールされたジョブ名でレポートされます。
カレンダーピッカーの使用¶
カレンダーピッカーを使用して、更新の曜日、月の日付、または年の日の基準となる日付を選択します。

更新は(設定された時間に応じて)特定の日付またはそれ以降に開始されます。 たとえば、1月27日が選択されている場合、更新の開始は次のようになります。
- その日または翌日(1月27日)のタイムスタンプの時間に毎日
- 毎週の特定の曜日(毎週月曜のタイムスタンプの時刻)。
- 毎月のその日(毎月27日のタイムスタンプの時刻)
- 毎年のその日(毎年1月27日のタイムスタンプの時刻)。

タイムピッカーをクリックします。 矢印を使用して時間を変更し、スナップショットを更新する現地時間にタイムスタンプを設定します。 全体のカレンダービューに戻るには、日付をクリックします。

スケジュール済みタスクの操作¶
スケジュールすると、さまざまな方法でタスクを変更できます。 タスクに関連付けられたアクションメニューを使用して、オプションにアクセスします。

オプション | 説明 |
---|---|
ジョブを一時停止 | スケジュール済みタスクを無期限に一時停止します。 一時停止すると、「スケジュール済み」ラベルが「一時停止」に変わり、メニュー項目が「ジョブを再開」に変わります。 スケジュール済みタスクを再度有効にするには、このアクションを使用します。 一時停止されたジョブはタスク制限の対象ではなくなります。 |
編集 | スケジューラーのインターフェイスを使用してタスク設定を変更できます。 |
資格情報を管理 | 資格情報の選択モーダルが開き、データセットに関連付けられた資格情報を変更できます。 |
削除 | スケジュールされたタスクを削除します。 |
更新制限設定¶
更新に関連するアクティビティのデフォルトと最大値を次の表に示します。
本機能の提供について
この表に示されているデフォルト値は、マネージドAIプラットフォームでの値です。 セルフマネージドAIプラットフォームでは、最大値がデフォルトです。
パラメーター | 説明 | デフォルト | Maximum(最大) |
---|---|---|---|
ユーザーに対して有効化されたデータセット更新ジョブ | データレジストリの全データセットでユーザーが保持できる更新ジョブの合計数。 | 100 | 100 |
データセットに対して有効化されたデータセット更新ジョブ | 特定のデータセットで全ユーザーを対象として存在できる更新ジョブの合計数。 | 5 | 100 |
データセットの更新ジョブが自動的に無効になるまで保存されるスナップショット | 特定のデータセットにおいて、更新ジョブが自動的に無効になるまで、そのデータセットで存在できる保存済みスナップショットの合計数。 | 100 | 1000 |
コメント¶
コメントタブでは、データレジストリ内のアクセス可能な任意のアセットにコメントを追加したり、そのアセットに関するディスカッションを開始したりすることができます。 コメントを使用すると、以下の操作を行うことができます。
- コメントで他のユーザーにタグを付けます。タグ付けしたユーザーにはDataRobotからメール通知が送信されます。
- 追加したコメントを編集または削除します(他のユーザーのコメントを編集または削除することはできません)。
