AIカタログへのインポート¶
インポート方法は、従来のエントリーおよびカタログエントリー両方で同じであり、ローカルファイル、HDFS、URL、またはJDBCデータソースを介してインポートします。 しかしカタログの場合、データセットをSparkとアンサンブルすることによって追加することもできます。 カタログを介してアップロードする場合、EDA1が(マテリアライズ済みアセットに対して)実行され、その結果は後で使用するために保存されます。 マテリアライズされていないアセットの場合、DataRobotはデータのアップロードとサンプルが行われますが、後で再利用するための結果の保存は行いません。 Additionally, you can upload calendars for use in time series projects and enable personal data detection.
AIカタログにデータを追加するには:
-
DataRobotウィンドウの上部にあるAIカタログをクリックします。
-
カタログに追加をクリックして、インポート方法を選択します。
次の表は、その方法を説明したものです。
方法 説明 新しいデータ接続 JBDC接続を設定して、データレイクの外部データベースからインポートします。 既存のデータ接続 設定済みのデータソースを選択して、データをインポートします。 アカウントと追加するデータを選択します。 ローカルファイル ブラウズしてローカルデータセットをアップロードするか、データセットをドラッグアンドドロップして インポートします。 URL URLを指定します。 Spark SQL Spark SQLクエリーを使用して、保存するデータを選択し、準備します。
DataRobotは、最初の探索的データ解析(EDA1)を行った後にデータを登録します。 登録後、以下の操作を行うことができます。
- 履歴を含むデータセットに関する情報を表示する。
- 別のデータセットとデータセットをブレンドする。
- AutoMLプロジェクトを作成する。
- その他のツールを使用して、アセットを表示、変更、 管理する。
外部接続から¶
JDBCを使用して、外部データベースからデータを読み取り、AIカタログにアセットとしてデータを追加して、モデル構築および予測を行うことができます。 詳細については、データ接続を参照してください。
-
接続を作成してデータソースを追加します(まだ実行していない場合)。
-
AIカタログタブを選択して、カタログに追加をクリックして、既存のデータ接続を選択します。
-
追加するデータを保持する接続をクリックします。
-
アカウントを選択します。 接続の認証に必要な資格情報を入力するか、または保存された資格情報を使用します。
-
検定が完了したら、データのソースを選択します。
要素 説明 1 スキーマ スキーマを選択して、データベース接続に関連付けられたすべてのスキーマをリストします。 表示されたリストからスキーマを選択します。 DataRobotはそのスキーマを構成するすべての表が表示されます。 データソースとして追加する各表で選択をクリックします。 2 表 表を選択して、すべてのスキーマにわたるすべての表の一覧を表示します。 データソースとして追加する各表で選択をクリックします。 3 SQLクエリー SQLクエリーでプロジェクトのデータを選択します。 4 検索 データソースをフィルターする方法(スキーマ、テキスト、またはSQLクエリー)を選択したら、テキスト文字列を入力して検索します。 5 データソースリスト 追加するデータソースで選択をクリックします。 選択された表(データセット)が右に表示されます。 1つのデータセットを削除するには、 x
をクリックします。すべてのエントリを削除するには、すべてクリアをクリックします。6 ポリシー ポリシーの選択: - スナップショットの作成:DataRobotがデータのスナップショットを取得します。
- 動的データとして作成:DataRobotが将来のモデリングおよび予測アクティビティのデータを更新します。
-
内容を選択した後、登録して続行をクリックします。
DataRobotは新しい表(データセット)を登録します。そこからプロジェクトを作成したり、SQLとの共有およびクエリーなどのその他の操作を実行したりできます。
SQLクエリーから¶
SQLクエリーを使用して、名前付きデータベースの特定の要素を選択し、データソースとして使用できます。 DataRobotには、SQL構文をハイライトしてクエリー構築を支援するWebベースのコードエディターが搭載されています。 DataRobotのSQLクエリーオプションは、SELECTベースのクエリーのみをサポートします。 また、SQLの検証はプロジェクトを作成するときにのみ実行されます。 検証は、サマリーペインのクエリーを編集するときには再実行されません。
クエリーエディターを使用するには:
-
外部接続からデータを追加して、SQLクエリータブをクリックします。 デフォルトで、設定タブが選択されています。
-
クエリーをSQLクエリーボックスに入力します。
-
入力の形式を検証するには、入力ボックスの下のSQLクエリーを検定ボックスが選択されていることを確認します。
備考
複雑なクエリーの場合、検証に長い時間がかかることがあるため、構文検証を無効にすることが有効な場合もあります。 検証を無効にすると、結果は表示されません。 クエリーの実行をスキップして、登録に移動できます。
-
スナップショットを作成するかどうかを選択します。
-
実行をクリックして、結果のプレビューを作成します。
-
計算が完了したら、結果タブを選択します。
-
プレビューで他の行を表示するには、ウィンドウシェードスクロールを使用します。行のすべての列をスクロールするには、水平スクロールバーを使用します。
満足できる結果が得られたら、登録して続行をクリックします。 DataRobotでクエリーが検証され、データの取込みが開始されます。 完了すると、データセットがカタログにパブリッシュされます。 ここから、他のアセットタイプと同様にデータセットを操作できます。
SQLエディターの操作のその他の例については、Spark SQLを使用してAIカタログでデータの準備を参照してください。
高速登録の設定¶
高速登録では、データセット全体ではなく、最初のN行を指定して登録することで、大きなデータセットをAIカタログにすばやく登録することができます。 これによりテストと特徴量探索に使用するデータへの高速アクセスが可能になります。
高速登録を設定するには:
-
AI Catalogで、 カタログに追加をクリックしてデータソースを選択します。 高速登録は、新しいデータ接続、既存のデータ接続、またはURLからデータセットを追加する場合にのみ使用できます。
-
表示されるウィンドウでデータソース情報(この例ではURL)を入力します。
-
ユースケースに適切なポリシー(スナップショットを作成または動的データとして作成)を選択します。
スナップショットと動的ポリシーの両方について、AIカタログデータセットは、データセットの始めから指定された数の行のみを使用してEDA1を計算します。 たとえば、上記のデータセット内の最初の1,000行を使用して計算します。
この2つのポリシーの違いは、スナップショットデータセットを使用する場合(たとえば、プロジェクトの作成に使用する、など)、データセットのコンシューマーには使用時に指定された数の行しか表示されませんが、動的データセットのコンシューマーには部分的な行ではなく完全な行が表示されます。
-
高速登録データアップロードオプションを選択します。 スナップショットの場合は一部のデータをアップロードするを選択し、動的の場合はデータの一部をEDAに使用を選択します。
-
登録時にデータ取込みに使用する行の数を指定して、保存をクリックします。
カレンダーのアップロード¶
時系列プロジェクトのカレンダーは次のいずれかの方法でアップロードできます。
- アップロード方法のいずれかを使用して、カタログに追加ボタンを使ってカタログに直接アップロードする。 ローカルファイルとしてアップロードされたカレンダーは、AIカタログに自動的に追加され、そこで共有およびダウンロードできます。
- 高度なオプション > 時系列タブを使ってプロジェクト内から行う。
時系列タブの高度なオプションからカレンダーファイルをアップロードするには:
-
高度なオプションから追加する場合は、ファイルの選択ドロップダウンを使用してAIカタログを選択します。
-
データセットのコンテンツに基づいて決定された使用可能なカレンダーがモーダルに一覧表示されます。 ドロップダウンを使用して、リストをタイプでソートします。
DataRobotでは、列の数に基づいて、カレンダーが単一系列か複数系列かを決定します。 2つの列があり、そのうちの1つだけが日付の場合、それは単一系列です。3つの列のうち1つの列だけが日付の場合は複数系列です。
-
カレンダーファイルをクリックして関連する詳細を表示し、プロジェクトで使用するカレンダーを選択します。
カレンダーファイルは標準のAIカタログインベントリの一部になり、他のデータセットと同じように再利用できます。 高度なオプションから生成されたカレンダーはカタログに保存され、そこでダウンロードして、さらにカスタマイズを適用し、再アップロードすることができます。
個人データ検出¶
規制された特定のユースケースでは、個人情報をモデルの特徴量として使用することは禁止されています。 DataRobotは、特定の種類の個人情報の検出を自動化して、データセットにこの情報が誤って含まれないように保護するレイヤーを提供し、モデリングおよび予測時に使用されないようにします。
データセットがAIカタログを通して取り込まれた後、各特徴量に個人情報が存在するかどうかをチェックするオプションがあります。 その結果、データセットのすべてのセルを、この種の情報を識別するためにDataRobotが開発したパターンと照合する処理が行われます。 見つかった場合、AIカタログの情報とプロフィールページに警告メッセージが表示され、各特徴量で検出された個人情報の種類を知らせるとともに、今後どのように進めるかを決めるのに役立つサンプル値を提供します。 さらに、DataRobotは新しい特徴量セットを作成します。これは有用な特徴量と同等ですが、個人情報を含む特徴量がすべて削除されています。 新しいセットの名前は有用な特徴量 - 個人情報を削除です。
注意
このツールは個人データのすべてのインスタンスを識別することを保証するものではありません。 これは、自身の個人データ検出制御を補足することを目的としています。
現在、DataRobotは次のフィールドでの検出をサポートしています。
- Eメールアドレス
- IPv4アドレス
- 米国の電話番号
- 社会保障番号
AIカタログのデータセットで個人データ検出を実行するには、情報ページに移動して、データセットの正常なパブリッシュを示すバナーで個人データの検出を実行するをクリックします。
データセット内で個人データが検出されると注意メッセージが表示されます。 詳細をクリックすると、検出された個人データに関する詳細情報が表示されます。却下をクリックすると、注意が消えて再度表示されなくなります。
注意はプロフィールタブの列によっても強調表示されます。