AIカタログへのプロジェクトのインポートと作成¶
AIカタログを使用すると、データの検索、共有、タグ付け、および再使用をシームレスに行うことができるので、運用までの時間を短縮してコラボレーションを促進することができます。 カタログによって、ビジネスの問題に対処するために必要なデータに容易にアクセスできると同時に、セキュリティ、コンプライアンス、および一貫性が保証されます。 AIカタログでは以下の操作が可能です。
- シンプルなデータ準備を実行し、特定の結果でSQLスクリプトを使用する。
- プロジェクトを完全に作成することなくデータセットを作成する。
- 必要なアセットの検索、アクセス、削除、および再使用を行う。
- プロジェクトを共有せずにデータを共有し、データ重複のリスクとコストを削減する。
- データセキュリティおよびガバナンスをサポートし、モデルへの適応までの速度を向上させる(カタログの選択・追加、役割ベースの共有、および監査証跡の機能が備えられています)。
重要
セルフマネージドAIプラットフォームユーザーについて、DataRobotは、検索一致、関連性、およびランク付けを大幅に改善するためにElasticsearchを有効にすることを推奨します。 Elasticsearchの設定とデプロイに関しては、DataRobotの担当者にお問い合わせください。
AIカタログとは、データおよび関連アセットを操作するために一元化されたコラボレーションハブです。 DataRobotのランディングページでは、従来の方法またはAIカタログを使用してプロジェクトを開始するオプションを提供しています。
次のセクションでは、AIカタログからのデータのインポートとプロジェクトの作成を説明します。
- 新しいデータを追加
- 接続済みのデータソースからスナップショットを作成
- リストされたアセットのプロジェクトを作成
カタログ内に追加された後は、追加のツールを使用して、アセットを表示、変更、および共有します。
データを追加¶
カタログにアセットを追加するには、アプリケーションのホームページまたはAIカタログのホームページのいずれかを起点とします。
インポート方法は、従来のエントリーおよびカタログエントリー両方で同じであり、ローカルファイル、HDFS、URL、またはJDBCデータソースを介してインポートします。 しかしカタログの場合、データセットをSparkとアンサンブルすることによって追加することもできます。 カタログを介してアップロードする場合、EDA1が(マテリアライズ済みアセットに対して)実行され、その結果は後で使用するために保存されます。 マテリアライズされていないアセットの場合、DataRobotはデータのアップロードとサンプルが行われますが、後で再利用するための結果の保存は行いません。 さらに、時系列プロジェクトで使用するカレンダーをアップロードすることができます。
カタログにアセットをアップロードするには:
-
AIカタログタブを選択します。
-
カタログに追加をクリックして、データのソースを選択します。
外部接続からのデータの追加¶
JDBCを使用して、外部データベースからデータを読み取り、AIカタログにアセットとしてデータを追加して、モデル構築および予測を行うことができます。 詳細については、データ接続を参照してください。
-
接続を作成してデータソースを追加します(まだ実行していない場合)。
-
AIカタログタブを選択して、カタログに追加をクリックして、既存のデータ接続を選択します。
-
追加するデータを保持する接続をクリックします。
-
アカウントを選択します。 接続の認証に必要な資格情報を入力するか、または保存された資格情報を使用します。
-
検定が完了したら、データのソースを選択します。
要素 説明 スキーマ スキーマを選択して、データベース接続に関連付けられたすべてのスキーマをリストします。 表示されたリストからスキーマを選択します。 DataRobotはそのスキーマを構成するすべての表が表示されます。 データソースとして追加する各表で選択をクリックします。 表 表を選択して、すべてのスキーマにわたるすべての表の一覧を表示します。 データソースとして追加する各表で選択をクリックします。 SQLクエリー SQLクエリーでプロジェクトのデータを選択します。 検索 データソースをフィルターする方法(スキーマ、テキスト、またはSQLクエリー)を選択したら、テキスト文字列を入力して検索します。 データソースリスト 追加するデータソースで選択をクリックします。 選択された表(データセット)が右に表示されます。 1つのデータセットを削除するには、 x
をクリックします。すべてのエントリを削除するには、すべてクリアをクリックします。ポリシー ポリシーの選択: - スナップショットの作成:DataRobotがデータのスナップショットを取得します。
- 動的データとして作成:DataRobotが将来のモデリングおよび予測アクティビティのデータを更新します。
-
内容を選択した後、登録して続行をクリックします。
DataRobotは新しい表(データセット)を登録します。そこからプロジェクトを作成したり、SQLとの共有およびクエリーなどのその他の操作を実行したりできます。
SQLクエリーの使用¶
SQLクエリーを使用して、名前付きデータベースの特定の要素を選択し、データソースとして使用できます。 DataRobotには、SQL構文をハイライトしてクエリー構築を支援するWebベースのコードエディターが搭載されています。 DataRobotのSQLクエリーオプションは、SELECTベースのクエリーのみをサポートします。 また、SQLの検証はプロジェクトを作成するときにのみ実行されます。 検証は、サマリーペインのクエリーを編集するときには再実行されません。
クエリーエディターを使用するには:
-
外部接続からデータを追加して、SQLクエリータブをクリックします。 デフォルトで、設定タブが選択されています。
-
クエリーをSQLクエリーボックスに入力します。
-
入力の形式を検証するには、入力ボックスの下のSQLクエリーを検定ボックスが選択されていることを確認します。
備考
複雑なクエリーの場合、検証に長い時間がかかることがあるため、構文検証を無効にすることが有効な場合もあります。 検証を無効にすると、結果は表示されません。 クエリーの実行をスキップして、登録に移動できます。
-
スナップショットを作成するかどうかを選択します。
-
実行をクリックして、結果のプレビューを作成します。
-
計算が完了したら、結果タブを選択します。
-
プレビューで他の行を表示するには、ウィンドウシェードスクロールを使用します。行のすべての列をスクロールするには、水平スクロールバーを使用します。
満足できる結果が得られたら、登録して続行をクリックします。 DataRobotでクエリーが検証され、データの取込みが開始されます。 完了すると、データセットがカタログに公開されます。 ここから、他のアセットタイプと同様にデータセットを操作できます。
SQLエディターの操作のその他の例については、Spark SQLを使用してAIカタログでデータの準備を参照してください。
カレンダーのアップロード¶
時系列プロジェクトのカレンダーは次のいずれかの方法でアップロードできます。
- アップロード方法のいずれかを使用して、カタログに追加ボタンを使ってカタログに直接アップロードする。 ローカルファイルとしてアップロードされたカレンダーは、AIカタログに自動的に追加され、そこで共有およびダウンロードできます。
- 高度なオプション > 時系列タブを使ってプロジェクト内から行う。
高度なオプションから追加する場合は、ファイルの選択ドロップダウンを使用してAIカタログを選択します。
データセットのコンテンツに基づいて決定された使用可能なカレンダーがモーダルに一覧表示されます。 ドロップダウンを使用して、リストをタイプでソートします。
DataRobotでは、列の数に基づいて、カレンダーが単一系列か複数系列かを決定します。 2つの列があり、そのうちの1つだけが日付の場合、それは単一系列です。3つの列のうち1つの列だけが日付の場合は複数系列です。
カレンダーデータセットをクリックして関連する詳細を表示し、プロジェクトで使用するカレンダーを選択します。
カレンダーファイルは標準のAIカタログインベントリの一部になり、他のデータセットと同じように再利用できます。 高度なオプションから生成されたカレンダーはカタログに保存され、そこでダウンロードして、さらにカスタマイズを適用し、再アップロードすることができます。
スナップショットの作成¶
外部データ接続を追加する場合、スナップショットを作成オプションの選択を解除して特定のセキュリティ要件などを満たすことができます。 選択を解除すると、データベース表がカタログに追加されますが、スナップショットは作成されず、未マテリアライズのデータエントリーが作成されます。 選択しない場合、DataRobotでデータが一度プルされ、データ構造を学習するためにEDAが実行されます。その後、データが検出されます。 モデリングや予測を求められると、DataRobotがデータを取り出します。 スナップショットが取得されたマテリアライズ済みデータはディスクに格納されます。マテリアライズされていないデータはアセットとしてリモートで格納され、必要に応じてダウンロードされます。
備考
自動スナップショット更新をスケジュールして、データセットをデータソースと定期的に同期できます。
アセットがスナップショットされているかどうかを確認するには、そのカタログエントリーをクリックして右側の詳細を確認します。 スナップショットが作成されている場合、最後にスナップショットが取得された日付が表示されます。それ以外の場合、通知が表示されます。
マテリアライズされていないデータのスナップショットを作成するには:
-
メインのカタログリストからアセットを選択します。
-
右上のメニューを展開して、スナップショットを作成を選択します。
カタログエントリを追加したときに定義したスナップショットパラメーターは更新できません。スナップショットは元のSQLに基づきます。
-
DataRobotが、データソースにアクセスするために必要な資格情報のプロンプトを表示します。 はい、スナップショットを取得しますをクリックして続行します。
-
DataRobotでEDAが実行されます。 新しいスナップショットはバージョン履歴から入手でき、最新(「最後」)のスナップショットがデータセットにデフォルトで使用されます。
EDAが完了すると、表示されたステータスが「SNAPSOT」に更新され、公開の完了を示すメッセージが表示されます。 アセットのスナップショットの作成を無効にするには、アセットを削除して追加し直し、スナップショットを作成を選択解除します。
プロジェクトの作成¶
AIカタログから新規プロジェクトを直接作成できます。また、リストされたデータセットを予測のソースとして使用することもできます。
プロジェクトを作成するには、カタログのメインリストからアセットをクリックして選択します。 右上でプロジェクトを作成をクリックします。
DataRobotは、EDA1を実行し、プロジェクトをロードします。 完了するとDataRobotに開始画面が表示されます。