Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

AIカタログへのプロジェクトのインポートと作成

AIカタログを使用すると、データの検索、共有、タグ付け、および再使用をシームレスに行うことができるので、運用までの時間を短縮してコラボレーションを促進することができます。カタログによって、ビジネスの問題に対処するために必要なデータに容易にアクセスできると同時に、セキュリティ、コンプライアンス、および一貫性が保証されます。AIカタログでは以下の操作が可能です。

  • シンプルなデータ準備を実行し、特定の結果でSQLスクリプトを使用する。
  • プロジェクトを完全に作成することなくデータセットを作成する。
  • 必要なアセットの検索、アクセス、削除、および再使用を行う。
  • プロジェクトを共有せずにデータを共有し、データ重複のリスクとコストを削減する。
  • データセキュリティおよびガバナンスをサポートし、モデルへの適応までの速度を向上させる(カタログの選択・追加、役割ベースの共有、および監査証跡の機能が備えられています)。

重要

オンプレミスユーザーについて、DataRobotは、検索一致、関連性、およびランク付けを大幅に改善するためにElasticsearchを有効にすることを推奨します。Elasticsearchの設定とデプロイに関しては、DataRobotの担当者にお問い合わせください。

AIカタログは、データおよび関連アセットを操作するための一元化されたコラボレーションハブです。DataRobotのランディングページでは、従来の方法またはAIカタログを使用してプロジェクトを開始するオプションを提供しています。

次のセクションでは、AIカタログからのデータのインポートとプロジェクトの作成を説明します。

カタログ内に追加された後は、追加のツールを使用して、アセットを表示、変更、および共有します。

データを追加

カタログにアセットを追加するには、アプリケーションのホームページまたはAIカタログのホームページのいずれかを起点とします。

インポート方法は、従来のエントリーおよびカタログエントリー両方で同じであり、ローカルファイル、HDFS、URL、またはJDBCデータソースを介してインポートします。しかしカタログの場合、データセットをSparkとアンサンブルすることによって追加することもできます。カタログを介してアップロードする場合、DataRobotはEDA1が(マテリアライズ済みアセットに対して)実行され、その結果は後で使用するために保存されます。マテリアライズされていないアセットの場合、DataRobotはデータのアップロードとサンプルが行われますが、後で再利用するための結果の保存は行いません。さらに、時系列プロジェクトで使用するカレンダーをアップロードすることができます。

カタログにアセットをアップロードするには:

  1. AIカタログタブを選択しまうs。

  2. カタログに追加ボタンをクリックして、データのソースを選択します。

    • 既存の外部データ接続(スナップショット有りまたは無し)。既存の接続がない場合はAIカタログから追加できます。

    • ローカルファイルを選択するファイルブラウザー。

    • URL(HTTP、HTTPS、ローカル、S3、Google クラウド Storage)。サポートされているURLのタイプはインストールの設定方法によって異なることに備考してください。

    • Hadoop Distributed File Systemノード(HDFS)に格納されたファイル。DataRobot Hadoop環境のみ

    • Spark SQLを使用する2つ以上のデータセットのアンサンブル。

外部接続からのデータの追加

JDBCを使用して、外部データベースからデータを読み取り、AIカタログにアセットとしてデータを追加して、モデル構築および予測を行うことができます。詳細については、データ接続を参照してください。

  1. 接続を作成してデータソースを追加します(まだ実行していない場合)。

  2. AIカタログタブを選択して、カタログに追加をクリックして、既存のデータ接続を選択します。

  3. 追加するデータを保持する接続をクリックします。

  4. アカウントを選択します。接続の認証に必要な資格情報を入力するか、または保存された資格情報を使用します

  5. 検定が完了したら、データのソースを選択します。

    要素 説明
    スキーマ スキーマを選択して、データベース接続に関連付けられたすべてのスキーマをリストします。表示されたリストからスキーマを選択します。DataRobotはそのスキーマを構成するすべてのテーブルが表示されます。 データソースとして追加する各テーブルで選択をクリックします。
    テーブル テーブルを選択して、すべてのスキーマにわたるすべてのテーブルの一覧を表示します。データソースとして追加する各テーブルで選択をクリックします。
    SQLクエリー SQLクエリーでプロジェクトのデータを選択します。
    検索 データソースをフィルターする方法(スキーマ、テキスト、またはSQLクエリー)を選択したら、テキスト文字列を入力して検索します。
    データソースリスト 追加するデータソースで選択をクリックします。選択されたテーブル(データセット)が右に表示されます。1つのデータセットを削除するには、xをクリックします。すべてのエントリーを削除するには、すべてクリアをクリックします。
    ポリシー ポリシーを選択します。
    • スナップショットを作成:DataRobotがデータのスナップショットを取得します。
    • 動的データとして作成:DataRobotが将来のモデリングおよび予測アクティビティのデータを更新します。
  6. 内容を選択した後、‭登録して続行をクリックします。

    DataRobotは新しいテーブル(データセット)を登録します。そこからプロジェクトを作成したり、SQLとの共有およびクエリーなどのその他の操作を実行したりできます。

SQLクエリーの使用

SQLクエリーを使用して、名前付きデータベースの特定の要素を選択し、データソースとして使用できます。DataRobotには、SQL構文をハイライトしてクエリー構築を支援するWebベースのコードエディターが搭載されています。DataRobotのSQLクエリーオプションは、SELECTベースのクエリーのみをサポートしていることに備考してください。 また、SQLの検証はプロジェクトを作成するときにのみ実行されます。DataRobotは検証は、サマリーペインのクエリーを編集するときには再実行されません。

クエリーエディターを使用するには、以下の手順に従います。

  1. 外部接続からデータを追加して、SQLクエリータブをクリックします。デフォルトでは、設定タブが選択されています。

  2. クエリーをSQLクエリーボックスに入力します。

  3. 入力の形式を検定するには、入力ボックスの下のSQLクエリーを検定ボックスが選択されていることを確認します。

    備考

    複雑なクエリーの場合、検証に長い時間がかかることがあるため、構文検証を無効にすることが有効な場合もあります。検証を無効にすると、結果は表示されません。クエリーの実行をスキップして、登録に移動できます。

  4. スナップショットを作成するかどうかを選択します。

  5. 実行をクリックして、結果プレビューを作成します。

  6. 計算が完了したら、結果タブを選択します。

  7. プレビューで他の行を表示するには、ウィンドウシェードスクロールを使用します。行のすべての列をスクロールするには、水平スクロールバーを使用します。

満足できる結果が得られたら、登録して続行をクリックします。DataRobotでクエリーが検証され、データの取込みが開始されます。完了すると、データセットがカタログに公開されます。ここから、他のアセットタイプと同様にデータセットを操作できます

SQLエディターの操作のその他の例については、Spark SQLを使用してAIカタログでデータの準備を参照してください。

カレンダーのアップロード

時系列プロジェクトのカレンダーは、次のいずれかの方法でアップロードできます。

  • アップロード方法のいずれかを使用し、カタログに追加ボタンをクリックして、カタログに直接アップロードします。ローカルファイルとしてアップロードされたカレンダーは、自動的にAIカタログに追加され、共有やダウンロードが可能になります。
  • 高度なオプション > 時系列タブを使ってプロジェクト内から行う。

高度なオプションから追加する場合は、ファイルの選択ドロップダウンを使用してAIカタログを選択します。

データセットの内容に基づいて決定された使用可能なカレンダーが、モーダルに一覧表示されます。ドロップダウンを使用して、リストをタイプ別に並べ替えます。

DataRobotでは、列の数に基づいて、カレンダーが単一系列か複数系列かを決定します。2つの列があり、そのうちの1つだけが日付の場合、それは単一系列です。3つの列のうち1つの列だけが日付の場合は複数系列です。

カレンダーデータセットをクリックして関連する詳細を表示し、プロジェクトで使用するカレンダーを選択します。

カレンダーファイルは標準のAIカタログインベントリの一部になり、他のデータセットと同じように再利用できます。高度なオプションから生成されたカレンダーはカタログに保存され、そこでダウンロードして、さらにカスタマイズを適用し、再アップロードすることができます。

スナップショットの作成

外部データ接続を追加する場合、スナップショットを作成オプションの選択を解除して特定のセキュリティ要件などを満たすことができます。選択を解除すると、DataRobotはデータベーステーブルがカタログに追加されますが、スナップショットは作成されず、未マテリアライズのデータエントリーが作成されます。選択を外すと、DataRobotは一度データを取り出し、EDAを実行してデータ構造を学習した後、データを削除します。モデリングや予測を求められると、DataRobotがデータを取り出します。スナップショットが取得されたマテリアライズ済みデータはディスクに格納されます。マテリアライズされていないデータはアセットとしてリモートで格納され、必要に応じてダウンロードされます。

備考

自動スナップショット更新をスケジュールして、データセットをデータソースと定期的に同期できます。

アセットがスナップショットされているかどうかを確認するには、そのカタログエントリーをクリックして右側の詳細を確認します。スナップショットが作成されている場合、最後にスナップショットが取得された日付が表示されます。それ以外の場合、通知が表示されます。

マテリアライズされていないデータのスナップショットを作成するには:

  1. メインのカタログリストからアセットを選択します。

  2. 右上のメニューを展開し、スナップショットを作成を選択します。

    カタログエントリーを追加したときに定義したスナップショットパラメーターは更新できません。スナップショットは元のSQLに基づき行われます。

  3. DataRobotが、データソースにアクセスするために必要な資格情報のプロンプトを表示します。はい、スナップショットを取得しますをクリックして続行します。

  4. DataRobotはEDAが実行されます。 新しいスナップショットは、バージョン履歴から入手できます。最新(つまり最後)のスナップショットが、そのデータセットにデフォルトで使用されます。

EDAが完了すると、表示されたステータスが「SNAPSOT」に更新され、公開の完了を示すメッセージが表示されます。アセットのスナップショットの作成を無効にするには、アセットを削除して追加し直し、スナップショットを作成を選択解除します。

プロジェクトの作成

AIカタログから新規プロジェクトを直接作成できます。また、リストされたデータセットを予測のソースとして使用することもできます。

プロジェクトを作成するには、カタログのメインリストからアセットをクリックして選択します。右上にあるプロジェクトを作成をクリックします。

DataRobotは、EDA1を実行し、プロジェクトをロードします。完了するとDataRobotに開始画面が表示されます。


更新しました February 22, 2022
Back to top