アセットの操作¶
データセットを追加すると、ソースデータがDataRobotに取込まれてEDA1が実行され、アセットが登録されてカタログで使用できるようになります。
このページでは、DataRobotに登録されたデータを操作する方法について説明します。
- アセットの詳細(名前、タグ、説明)を更新する
- 特徴量セットの表示と作成
- 設定された関係性の表示と管理
- バージョン履歴の表示。
- 個々のアセット内でのコメントの追加とディスカッション
- 動的データセットのスナップショットを作成する
- スナップショットの更新をスケジュールして、データを最新の状態に保つ
- カタログアセットからプロジェクトを作成する
こちらもご覧ください。
さらに、Composable MLが有効になっている場合、ブループリントをAIカタログに保存できます。 カタログから、ブループリントを編集したり、互換性のあるプロジェクトのモデルをトレーニングしたり、または共有したりすることができます。
既存のアセットの検索¶
AIカタログ内では、作業するデータアセットをすばやく見つけるためのさまざまなツールを利用できます。 以下を実行することが可能です。
検索クエリーボックスを使用して特定のアセットを検索します。
ドロップダウンを使用すると、既存のすべてのアセットの順序を変更できます。
デフォルトの並べ替えオプションは作成日です。ただし、特定のアセットを検索した場合、デフォルトは関連性になります。
検索クエリーボックスの下では、ソース、タグ、オーナーでアセットをフィルターできます。
たとえば、アセットに手動で追加された タグでフィルターできます。
Elasticsearchの無効化
AIカタログの検索でパフォーマンスの問題や予期せぬ動作が発生した場合は、Elasticsearchを無効にする方法についてDataRobotの担当者または管理者にお問い合わせください。
機能フラグ:AIカタログの検索でElasticSearchを無効にする
アセット情報の表示¶
カタログ内のアセットをクリックすると、アセットの詳細だけでなく、メタデータの概要が表示されます。
要素 | 説明 | |
---|---|---|
1 | 「アセット」タブ | アセット(データセット)を操作するタブを選択します。
|
2 | データセット情報 | 名前と説明を更新し、検索に使用するタグを追加します。 行と特徴量の数が、その他の詳細とともに右側に表示されます。 |
3 | 状態バッジ | 表示されるバッジは アセットの状態を示します。これは、アセットが登録中であるか、静的であるか動的であるか、Spark SQLクエリーから生成されたか、スナップショットが取得されているかなどです。 |
4 | プロジェクトを作成 | データセットから機械学習プロジェクトを作成します。 |
5 | 共有 | 他のユーザー、グループ、および組織とアセットを共有します。 |
6 | アクションメニュー | データセットのスナップショットをダウンロード、削除、または作成します。 |
7 | スナップショットを更新 | スケジュールされたスナップショットを追加します。 |
データのプロファイリング¶
プロフィールタブを使用して、データセットの列名と行データをプレビューできます。 アンサンブルデータセットに対するSpark SQLステートメントを記述する際の列名の検索や検証に利用できます。
情報タブとプロフィールタブ
情報タブには、データの合計行数、特徴量数、サイズが表示されます。
プロフィールタブには、1MBの未処理サンプルに基づくデータのみプレビュー表示されますが、特徴量の型と詳細は500MBのサンプルに基づいて表示されます。
つまり、プロフィールタブに表示される行数は、情報タブに表示される行数と一致しない場合があります。
プレビューは最大1MBのデータのランダムなサンプルであり、元のデータの順序とは異なる場合があります。 元の全データを表示するには、データセットのダウンロードオプションを使用します。
データセットをプレビューするには、メインカタログでデータセットを選択し、鉛筆アイコン()をクリックしてデータセットの情報にアクセスします(利用可能な場合)。
-
プロフィールタブをクリックして、データセットの内容をプレビューします。
-
列ドロップダウンを使用して、ページに表示する列の数を選択し、スクロールバーを使用して列をスクロールします。 さらに、行ドロップダウンを使用して20行単位で使用可能なデータを移動できます。
プロフィールタブでは、データセット内のすべての特徴量の詳細も表示されます。 特定の特徴量の詳細を表示するには、画面上で目的の特徴量にスクロールしてクリックします。 右側のパネルに一覧表示される特徴量の詳細が更新され、特徴量の統計が反映されます。 (これはEDA1のデータに表示される統計と同じです。)
特徴量セットの表示と作成¶
カタログ内の任意のデータセットの特徴量に対して、新しい特徴量セットおよび特徴量の変換を作成できます。 ツールを使用するには、メインカタログでデータセットを選択し、左側のパネルで特徴量セットを選択します。
備考
特徴量セットを作成するには、データセットに対するオーナーまたはエディターのアクセス権が必要です。
特徴量セットを作成した場合、特徴量セットはプロジェクトを作成するとプロジェクトにコピーされます。 その後、特徴量セットドロップダウン(プロジェクトデータリストの上部)からプロジェクトで使用するリストを設定できます。 特徴量セットの作成、変更、および詳細については、特徴量セットの操作に関するセクションを参照してください。
特徴量セットタブからは、特徴量の型変換を作成するツールにもアクセスできます。 特徴量の型の割り当てはEDAで検出された値に基づきますが、型を変更する必要が生じる場合があります。 詳細については、特徴量の変換ドキュメントを参照してください。
特徴量セットを作成するには:
-
特徴量名の左のチェックボックスを使用して、特徴量のセットを選択します。
-
最初の特徴量を選択するとアクティブになる選択から新しい特徴量セットを作成リンクをクリックします。
-
表示されるダイアログに新しいリストの名前を入力し、送信をクリックします。 新しいリストがドロップダウンで使用可能になります。
作成した特徴量セットは、削除または名前を変更できます。 DataRobotのデフォルト特徴量セットは変更できません。
関係性の管理¶
DataRobotの特徴量探索を使用すると、関係性を作成し、含まれるデータセットとデータセット同士の関係の両方を定義することができます。 最終的な成果物として、これらのリンクから生成される多くの追加の特徴量が得られます。 含まれるデータセットがDataRobotの特徴量探索エンジンによって分析され、特徴量エンジニアリング「レシピ」が決定されます。そのレシピから、トレーニングおよび予測に使用するセカンダリー特徴量が生成されます。 確立された関係性はカタログから表示できます。
既存の関係性を表示、変更、または削除するには、メインカタログでデータセットを選択し、関係性タブをクリックします。
関係性の詳細を変更する前に、関係性の操作に関する詳細情報を参照してください。
バージョン履歴の表示¶
バージョン履歴タブでは、選択したアセットのすべてのバージョンを一覧表示します。 ステータス列は、スナップショットのステータスを示します(正常に完了した場合は緑、失敗した場合は赤、元のバージョンにスナップショットがない場合はグレー)。
バージョンをクリックして、選択します。 選択すると、バージョンからプロジェクトを作成、およびコンテンツをダウンロードまたは削除できます。
コメントの追加¶
コメントタブでは、アクセスできるカタログのあらゆるアイテムにコメントを追加し、ディスカッションを行うことができます。 コメント機能はAIカタログ(下図参照)で使用できます。また、リーダーボードのモデルタブやユースケース追跡でも使用できます。 コメントを使用すると、以下の操作を行うことができます。
- コメントで他のユーザーにタグを付けます。タグ付けしたユーザーにはDataRobotからメール通知が送信されます。
- 追加したコメントを編集または削除します(他のユーザーのコメントを編集または削除することはできません)。
スナップショットアセットのバージョン管理
静的アセットは、同じタイプのアップロードによってのみバージョン管理できます。ローカルファイルによって作成されたデータセットはローカルファイルのアップロードからバージョン管理され、データステージから作成されたデータセットはデータステージのアップロードからバージョン管理されます。
スナップショットの作成¶
外部データ接続を追加する場合、スナップショットを作成オプションの選択を解除して特定のセキュリティ要件などを満たすことができます。 スナップショットが取得されたマテリアライズ済みデータはディスクに格納されます。マテリアライズされていないデータはアセットとしてリモートで格納され、必要に応じてダウンロードされます。
アセットがスナップショットされているかどうかを確認するには、そのカタログエントリーをクリックして右側の詳細を確認します。 スナップショットが作成されている場合、最後にスナップショットが取得された日付が表示されます。それ以外の場合、通知が表示されます。
マテリアライズされていないデータのスナップショットを作成するには:
-
メインのカタログリストからアセットを選択します。
-
右上のメニューを展開して、スナップショットを作成を選択します。
カタログエントリを追加したときに定義したスナップショットパラメーターは更新できません。スナップショットは元のSQLに基づきます。
-
DataRobotが、データソースにアクセスするために必要な資格情報のプロンプトを表示します。 はい、スナップショットを取得しますをクリックして続行します。
-
DataRobotでEDAが実行されます。 新しいスナップショットはバージョン履歴から入手でき、最新(「最後」)のスナップショットがデータセットにデフォルトで使用されます。
EDAが完了すると、表示されたステータスが「SNAPSHOT」に更新され、パブリッシュの完了を示すメッセージが表示されます。 アセットのスナップショットの作成を無効にするには、アセットを削除して追加し直し、スナップショットを作成を選択解除します。
プロジェクトの作成¶
AIカタログから新規プロジェクトを直接作成できます。また、リストされたデータセットを予測のソースとして使用することもできます。
プロジェクトを作成するには、カタログのメインリストからアセットをクリックして選択します。 右上でプロジェクトを作成をクリックします。
DataRobotは、EDA1を実行し、プロジェクトをロードします。 完了するとDataRobotに開始画面が表示されます。