Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

AIカタログへのインポート

インポート方法は、従来のエントリーおよびカタログエントリー両方で同じであり、ローカルファイル、HDFS、URL、またはJDBCデータソースを介してインポートします。 しかしカタログの場合、データセットをSparkとアンサンブルすることによって追加することもできます。 カタログを介してアップロードする場合、EDA1が(マテリアライズ済みアセットに対して)実行され、その結果は後で使用するために保存されます。 マテリアライズされていないアセットの場合、DataRobotはデータのアップロードとサンプルが行われますが、後で再利用するための結果の保存は行いません。 さらに、時系列プロジェクトで使用するカレンダーをアップロードすることができます。

AIカタログにデータを追加するには:

  1. DataRobotウィンドウの上部にあるAIカタログをクリックします。

  2. カタログに追加をクリックして、インポート方法を選択します。

    次の表は、その方法を説明したものです。

    方法 説明
    新しいデータ接続 JBDC接続を設定して、データレイクの外部データベースからインポートします。
    既存のデータ接続 設定済みのデータソースを選択して、データをインポートします。 アカウントと追加するデータを選択します。
    ローカルファイル ブラウズしてローカルデータセットをアップロードするか、データセットをドラッグアンドドロップして インポートします。
    URL URLを指定します。
    Spark SQL Spark SQLクエリーを使用して、保存するデータを選択し、準備します。

DataRobotは、最初の探索的データ解析(EDA1)を行った後にデータを登録します。 登録後、以下の操作を行うことができます。

外部接続から

JDBCを使用して、外部データベースからデータを読み取り、AIカタログにアセットとしてデータを追加して、モデル構築および予測を行うことができます。 詳細については、データ接続を参照してください。

  1. 接続を作成してデータソースを追加します(まだ実行していない場合)。

  2. AIカタログタブを選択して、カタログに追加をクリックして、既存のデータ接続を選択します。

  3. 追加するデータを保持する接続をクリックします。

  4. アカウントを選択します。 接続の認証に必要な資格情報を入力するか、または保存された資格情報を使用します。

  5. 検定が完了したら、データのソースを選択します。

    要素 説明
    1 スキーマ スキーマを選択して、データベース接続に関連付けられたすべてのスキーマをリストします。 表示されたリストからスキーマを選択します。 DataRobotはそのスキーマを構成するすべての表が表示されます。 データソースとして追加する各表で選択をクリックします。
    2 を選択して、すべてのスキーマにわたるすべての表の一覧を表示します。 データソースとして追加する各表で選択をクリックします。
    3 SQLクエリー SQLクエリーでプロジェクトのデータを選択します。
    4 検索 データソースをフィルターする方法(スキーマ、テキスト、またはSQLクエリー)を選択したら、テキスト文字列を入力して検索します。
    5 データソースリスト 追加するデータソースで選択をクリックします。 選択された表(データセット)が右に表示されます。 1つのデータセットを削除するには、xをクリックします。すべてのエントリを削除するには、すべてクリアをクリックします。
    6 ポリシー ポリシーの選択:
    • スナップショットの作成:DataRobotがデータのスナップショットを取得します。
    • 動的データとして作成:DataRobotが将来のモデリングおよび予測アクティビティのデータを更新します。
  6. 内容を選択した後、登録して続行をクリックします。

    DataRobotは新しい表(データセット)を登録します。そこからプロジェクトを作成したり、SQLとの共有およびクエリーなどのその他の操作を実行したりできます。

SQLクエリーから

SQLクエリーを使用して、名前付きデータベースの特定の要素を選択し、データソースとして使用できます。 DataRobotには、SQL構文をハイライトしてクエリー構築を支援するWebベースのコードエディターが搭載されています。 DataRobotのSQLクエリーオプションは、SELECTベースのクエリーのみをサポートします。 また、SQLの検証はプロジェクトを作成するときにのみ実行されます。 検証は、サマリーペインのクエリーを編集するときには再実行されません。

クエリーエディターを使用するには:

  1. 外部接続からデータを追加して、SQLクエリータブをクリックします。 デフォルトで、設定タブが選択されています。

  2. クエリーをSQLクエリーボックスに入力します。

  3. 入力の形式を検証するには、入力ボックスの下のSQLクエリーを検定ボックスが選択されていることを確認します。

    備考

    複雑なクエリーの場合、検証に長い時間がかかることがあるため、構文検証を無効にすることが有効な場合もあります。 検証を無効にすると、結果は表示されません。 クエリーの実行をスキップして、登録に移動できます。

  4. スナップショットを作成するかどうかを選択します。

  5. 実行をクリックして、結果のプレビューを作成します。

  6. 計算が完了したら、結果タブを選択します。

  7. プレビューで他の行を表示するには、ウィンドウシェードスクロールを使用します。行のすべての列をスクロールするには、水平スクロールバーを使用します。

満足できる結果が得られたら、登録して続行をクリックします。 DataRobotでクエリーが検証され、データの取込みが開始されます。 完了すると、データセットがカタログにパブリッシュされます。 ここから、他のアセットタイプと同様にデータセットを操作できます

SQLエディターの操作のその他の例については、Spark SQLを使用してAIカタログでデータの準備を参照してください。

高速登録の設定

高速登録では、データセット全体ではなく、最初のN行を指定して登録することで、大きなデータセットをAIカタログにすばやく登録することができます。 これによりテストと特徴量探索に使用するデータへの高速アクセスが可能になります。

高速登録を設定するには:

  1. AI Catalogで、 カタログに追加をクリックしてデータソースを選択します。 高速登録は、新しいデータ接続、既存のデータ接続、またはURLからデータセットを追加する場合にのみ使用できます。

  2. 表示されるウィンドウでデータソース情報(この例ではURL)を入力します。

  3. ユースケースに適切なポリシー(スナップショットを作成または動的データとして作成)を選択します。

    スナップショットと動的ポリシーの両方について、AIカタログデータセットは、データセットの始めから指定された数の行のみを使用してEDA1を計算します。 たとえば、上記のデータセット内の最初の1,000行を使用して計算します。

    この2つのポリシーの違いは、スナップショットデータセットを使用する場合(たとえば、プロジェクトの作成に使用する、など)、データセットのコンシューマーには使用時に指定された数の行しか表示されませんが、動的データセットのコンシューマーには部分的な行ではなく完全な行が表示されます。

  4. 高速登録データアップロードオプションを選択します。 スナップショットの場合は一部のデータをアップロードするを選択し、動的の場合はデータの一部をEDAに使用を選択します。

  5. 登録時にデータ取込みに使用する行の数を指定して、保存をクリックします。

カレンダーのアップロード

時系列プロジェクトのカレンダーは次のいずれかの方法でアップロードできます。

  • アップロード方法のいずれかを使用して、カタログに追加ボタンを使ってカタログに直接アップロードする。 ローカルファイルとしてアップロードされたカレンダーは、AIカタログに自動的に追加され、そこで共有およびダウンロードできます。
  • 高度なオプション > 時系列タブを使ってプロジェクト内から行う。

時系列タブの高度なオプションからカレンダーファイルをアップロードするには:

  1. 高度なオプションから追加する場合は、ファイルの選択ドロップダウンを使用してAIカタログを選択します。

  2. データセットのコンテンツに基づいて決定された使用可能なカレンダーがモーダルに一覧表示されます。 ドロップダウンを使用して、リストをタイプでソートします。

    DataRobotでは、列の数に基づいて、カレンダーが単一系列か複数系列かを決定します。 2つの列があり、そのうちの1つだけが日付の場合、それは単一系列です。3つの列のうち1つの列だけが日付の場合は複数系列です。

  3. カレンダーファイルをクリックして関連する詳細を表示し、プロジェクトで使用するカレンダーを選択します。

    カレンダーファイルは標準のAIカタログインベントリの一部になり、他のデータセットと同じように再利用できます。 高度なオプションから生成されたカレンダーはカタログに保存され、そこでダウンロードして、さらにカスタマイズを適用し、再アップロードすることができます。


更新しました March 13, 2024