AIカタログアセットの操作¶
AIカタログ内のデータアセットは、次のいずれかとなります。
- テーブル/ビューのマテリアライズ済みスナップショット。これは、DataRobotがデータアセットから取り出し、現在そのコピーをカタログに保持していることを意味します。
- 動的接続。これは、モデリングプロジェクトを作成する際に、データセット全体がデータソースから取り込まれるため、最新のデータを使用できることを意味します。
データがスナップショットされている場合、そのスナップショットは定期的に自動で更新され、データセット系統を保存するために自動的にバージョン管理され、DataRobotの全体的なガバナンス機能を強化できます。
さらに、Composable MLが有効になっている場合、ブループリントをAIカタログに保存できます。 カタログから、ブループリントを編集したり、互換性のあるプロジェクトのモデルをトレーニングしたり、または共有したりすることができます。
このセクションでは、カタログアセットを操作するためのツールについて説明します。
- アセット状態を理解する。
- アセットの詳細(名前、タグ、説明)を更新する
- 特徴量セットの管理
- 設定済み関係性の表示
- バージョン履歴の表示およびコメントの追加
- アセットの共有と削除
- アセットに対して一括アクションを実行する
アセットを追加するには、AIカタログへのプロジェクトのインポートと作成参照してください。
既存のアセットの検索¶
AIカタログ内では、作業するデータアセットをすばやく見つけるためのさまざまなツールを利用できます。 以下を実行することが可能です。
検索クエリーボックスを使用して特定のアセットを検索します。
ドロップダウンを使用すると、既存のすべてのアセットの順序を変更できます。
デフォルトの並べ替えオプションは作成日です。ただし、特定のアセットを検索した場合、デフォルトは関連性になります。
アセット状態¶
DataRobotは、データセットの状態を示すため、カタログエントリーにバッジを追加します。 次のいずれかの方法を選択します。
状態 | 説明 |
---|---|
動的 | スナップショットのないデータセット。 |
Spark | Sparkクエリーから構築されたデータセット。 |
スナップショット | スナップショットがあるデータセット。 |
Static | スナップショットを含む静的ファイルまたはURLベースのデータセット。 データステージを使用してアップロードされたデータセットにもSTATICバッジが表示されますが、FROMフィールドには stage://{stageId}/{filename} が表示されます。 |
静的アセットのバージョン管理
静的アセットは、同じタイプのアップロードによってのみバージョン管理できます。ローカルファイルによって作成されたデータセットはローカルファイルのアップロードからバージョン管理され、データステージから作成されたデータセットはデータステージのアップロードからバージョン管理されます。
動的データセットからスナップショットを作成するとどうなりますか?
AIカタログでは、データセットはSNAPSHOT
とマークされます。すべてのSNAPSHOT
データセットと同様に、そこから新しいスナップショットを作成できます。 このようなデータセットの場合、プロジェクトの作成にはスナップショットのみが使用されます。
アセットの詳細¶
データセットを追加すると、ソースデータがDataRobotに取込まれてEDA1が実行され、アセットが登録されてカタログで使用できるようになります。
登録されると、以下に説明するタブを使用して、追加情報を表示し、アセットの詳細を管理することもできます。
情報タブには、アセットの詳細とメタデータの概要が表示されます。
要素 | 説明 | |
---|---|---|
![]() |
名前 | アセットに名前を付けます。 デフォルトでは、これはアップロードされたファイル名です。 |
![]() |
説明 | アセットに関するわかりやすい説明を入力します。 |
![]() |
タグ | AIカタログでアセットをフィルターする際に役立つタグを追加します。 DataRobotには、入力した文字に一致する事前定義済みのタグが用意されています。 クリックしてタグを選択するか、入力を続けて英数文字の新しいタグを追加します(特殊文字と記号は使用できません)。 入力ボックス以外の場所をクリックするか、ドロップダウンをクリックしてタグを追加します。 |
![]() |
概要 | 全行数、特徴量数、特徴量型などのアセットの概要。 |
![]() |
メタデータ | サイズ、オーナー、データセットIDなどの追加のメタデータ。 |
鉛筆アイコン()をクリックして、アセット名の変更、説明の追加、またはフィルター用のタグの追加を行い、ボックスの外側をクリックして変更を保存します。
プロフィールタブを使用して、データセットの列名と行データをプレビューできます。 アンサンブルデータセットに対するSpark SQLステートメントを記述する際の列名の検索や検証に利用できます。
情報タブとプロフィールタブ
情報タブには、データの合計行数、特徴量数、サイズが表示されます。
プロフィールタブには、1MBの未処理サンプルに基づくデータのみプレビュー表示されますが、特徴量の型と詳細は500MBのサンプルに基づいて表示されます。
つまり、プロフィールタブに表示される行数は、情報タブに表示される行数と一致しない場合があります。
プレビューは最大1MBのデータのランダムなサンプルであり、元のデータの順序とは異なる場合があります。 元の全データを表示するには、データセットのダウンロードオプションを使用します。
データセットをプレビューするには、メインカタログでデータセットを選択し、鉛筆アイコン()をクリックしてデータセットの情報にアクセスします(利用可能な場合)。
-
プロフィールタブをクリックして、データセットの内容をプレビューします。
-
列ドロップダウンを使用して、ページに表示する列の数を選択し、スクロールバーを使用して列をスクロールします。 さらに、行ドロップダウンを使用して20行単位で使用可能なデータを移動できます。
プロフィールタブでは、データセット内のすべての特徴量の詳細も表示されます。 特定の特徴量の詳細を表示するには、画面上で目的の特徴量にスクロールしてクリックします。 右側のパネルに一覧表示される特徴量の詳細が更新され、特徴量の統計が反映されます。 (これはEDA1のデータに表示される統計と同じです。)
カタログ内の任意のデータセットの特徴量に対して、新しい特徴量セットおよび特徴量の変換を作成できます。 ツールを使用するには、メインカタログでデータセットを選択し、左側のパネルで特徴量セットを選択します。
特徴量セットを作成した場合、特徴量セットはプロジェクトを作成するとプロジェクトにコピーされます。 その後、特徴量セットドロップダウン(プロジェクトデータリストの上部)からプロジェクトで使用するリストを設定できます。 特徴量セットの作成、変更、および詳細については、特徴量セットの操作に関するセクションを参照してください。
特徴量セットタブからは、特徴量の型変換を作成するツールにもアクセスできます。 特徴量の型の割り当てはEDAで検出された値に基づきますが、型を変更する必要が生じる場合があります。 詳細については、特徴量の変換ドキュメントを参照してください。
特徴量セットを作成するには:
-
特徴量名の左のチェックボックスを使用して、特徴量のセットを選択します。
-
最初の特徴量を選択するとアクティブになる選択から新しい特徴量セットを作成リンクをクリックします。
-
表示されるダイアログに新しいリストの名前を入力し、送信をクリックします。 新しいリストがドロップダウンで使用可能になります。
作成した特徴量セットは、削除または名前を変更できます。 DataRobotのデフォルト特徴量セットは変更できません。
DataRobotの特徴量探索を使用すると、関係性を作成し、含まれるデータセットとデータセット同士の関係の両方を定義することができます。 最終的な成果物として、これらのリンクから生成される多くの追加の特徴量が得られます。 含まれるデータセットがDataRobotの特徴量探索エンジンによって分析され、特徴量エンジニアリング「レシピ」が決定されます。そのレシピから、トレーニングおよび予測に使用するセカンダリー特徴量が生成されます。 確立された関係性はカタログから表示できます。
既存の関係性を表示、変更、または削除するには、メインカタログでデータセットを選択し、関係性タブをクリックします。
関係性の詳細を変更する前に、関係性の操作に関する詳細情報を参照してください。
バージョン履歴タブでは、選択したアセットのすべてのバージョンを一覧表示します。 ステータス列は、スナップショットのステータスを示します(正常に完了した場合は緑、失敗した場合は赤、元のバージョンにスナップショットがない場合はグレー)。
バージョンをクリックして、選択します。 選択すると、バージョンからプロジェクトを作成、およびコンテンツをダウンロードまたは削除できます。
コメントタブでは、アクセスできるカタログのあらゆるアイテムにコメントを追加し、ディスカッションを行うことができます。 コメント機能はAIカタログ(下図参照)で使用できます。また、リーダーボードのモデルタブやユースケース追跡でも使用できます。 コメントを使用すると、以下の操作を行うことができます。
- コメントで他のユーザーにタグを付けます。タグ付けしたユーザーにはDataRobotからメール通知が送信されます。
- 追加したコメントを編集または削除します(他のユーザーのコメントを編集または削除することはできません)。
アセットアクション¶
AIカタログには、データセットのダウンロード、共有、削除など、データアセットを操作する方法がいくつかあります。
データセットをダウンロード¶
データセットをダウンロードするには、カタログリストからデータセットを選択します。 右上のドロップダウンメニューから、データセットをダウンロード()を選択します。表示されるダイアログでダウンロード先を参照し、[保存]をクリックします。
備考
ダウンロードできるのはスナップショットが作成されているデータセットだけです。 さらに、10GBのファイルサイズ制限があります。10GBを超えるデータセットをダウンロードしようとすると失敗します。
アセットの共有¶
AIカタログのアセットは、ユーザー、グループ、組織と共有できます。
要素 | 説明 | |
---|---|---|
![]() |
共有の許可 | 共有しているユーザーは、アセットを他のユーザーと共有できます。 |
![]() |
データを使用できる | 共有しているユーザーはデータを使用できます。 データの使用方法は、ロールによって異なります。 |
![]() |
ユーザーリスト | アセットを共有するユーザーを入力します。 |
![]() |
アクセスレベル | デフォルトではユーザーから選択します。 インスタンスでグループと組織が設定されている場合、これらのカテゴリーから選択できます。 |
![]() |
役割 | アセットを共有するユーザー、グループ、または組織のロールを選択します。
|
![]() |
共有 | 共有を選択して操作を実行します。 |
![]() |
共有先 | アセットを共有するユーザー、グループ、および組織をその権限設定と合わせて表示します。 |
複数のユーザーと共有する
カタログアセットを複数のユーザーと共有する場合、DataRobotはユーザーグループの作成まず、個々のユーザーではなくそのグループと共有します。
カタログは、アプリケーション内の他の場所と同じ共有ウィンドウを使用します。一部のフィールドはデータアセットに固有です。
アセットの削除¶
データセットを削除するには、カタログリストからデータセットを選択します。 右上のドロップダウンメニューからデータセットの削除()を選択します。 確認メッセージが削除されたら、削除をクリックします。
データセットに対する一括アクション¶
AIカタログの一括アクション機能を使用して、複数のデータセットを一度に共有、タグ付け、または削除できます。 管理するアセットの横にあるボックスを選択することから始めます。上部の一括アクションを有効にするには、少なくとも1つのアセットを選択します。 カウンターには、アクティブに選択されているアセットの数も表示されます。
アセットの選択が完了したら、次のオプションから適切なアクションを選択します。削除、タグ付け、または共有。