Skip to content

データを探索

データアセットタイルには、選択されたユースケースに現在リンクされているすべてのデータセットとレシピが一覧表示されます。 ここから、アセットを管理し、さまざまなデータアクションを起動することができます。

  要素 説明
1 データを追加 クリックすると「データを追加」モーダルが開き、現在のユースケースにデータセットを追加できます。
2 検索 特定のデータセットを検索します。
3 アセットタイプアイコン 各アセットの前には、以下のアイコンのいずれかが表示されます。
  • : アセットが登録済みデータセットであることを示します。
  • : アセットがラングリングレシピであることを示します。
4 アクションメニュー アクションメニュー をクリックすると、データアセットを操作できます。
データセットでは、以下のことができます。
  • データセット名を編集:データセットの名前を変更します。
  • 探索する探索的データインサイトの確認と特徴量セットの管理を行います。
  • ラングラーで開く:データ接続から取得したデータセットに対してデータラングリングを実行します。
  • SQLエディターで開く:SQLクエリーを使用して、データのクリーンアップと準備を行います。
  • 特徴量探索:2つ以上のデータセットを使用する場合に特徴量探索を実行します。
  • モデリングを開始:データセットを使ってエクスペリメントを設定します。
  • ユースケースから削除:ユースケースからデータセットを削除し、チームメンバーのアクセス権も削除します。 データセットは、データレジストリから引き続き入手できます。
レシピでは、以下のことができます。
  • 編集:ラングリングレシピに変更を加えます。
  • クローン:ラングリングレシピの重複エントリーを作成します。
  • ユースケースから削除:ユースケースからレシピを削除します。
5 ソート データセット列を並べ替えます。

データセットがワークベンチに登録されている間、DataRobotは探索的データ解析 (EDA1)も実行します。つまり、すべての特徴量を解析してプロファイリングし、特徴量型の検出、日付型特徴量の自動変換、特徴量の品質評価を行います。 登録が完了したら、EDA1の計算中に明らかになった情報を探索できます。

データ探索ページを開くには、確認したいデータセットの横にあるアクションメニュー をクリックし、探索するを選択します。 または、データセット名をクリックしてインサイトを表示します。

データ探索タイル

タイル 説明
データセットのサマリー情報を表示します。
頻出値など、データセット内の特徴量をより視覚的に表示します。
特徴量を表形式で、特徴量の有用性やサマリー統計とともに表示します。 特定の特徴量を選択すると、データプレビュータイルに表示されるものよりも詳細なデータインサイトが表示されます。
新しい特徴量セットを作成したり、既存の特徴量セットを管理したりできます。

情報タイル

現在参照しているデータセットバージョンのサマリー情報を表示します。

このページには、以下の情報が表示されます。

フィールド 説明
作成 データセットの登録日と、データセットをDataRobotに追加したユーザーを示すタイムスタンプ。
データセット データセットの名前、特徴量の数、および行数。
レシピ ソースデータに適用された後、データセットを作成するために使用される名前とレシピのタイプ。
変更 データセットが最後に変更された日時と、データセットを変更したユーザーを示すタイムスタンプ。
特徴量の概要 データセットに含まれ、データ型別にグループ化された特徴量の数。

表示しているデータセットがパブリッシュされたラングリングレシピの出力である場合、ページの下部にあるレシピSQLをクリックして、データソースによって実行された操作の最終コンパイル形式を確認できます。

データプレビュータイル

選択されたデータセットの均一ランダムサンプリングを使ってプレビューを表示します(詳細については、EDAインサイトを参照してください)。 データセットが動的なものであると、インタラクティブ操作用のサンプルを見ることができます。この場合、元のデータのランダムサンプリングが表示されます。 右パネルのインタラクティブ操作用サンプルで、サンプリング方法と行数を指定できます。 このオプションは、スナップショットデータセットでは利用できません。

  要素 説明
1 ドロップダウンから特徴量を表示 特定の特徴量セットに含まれる特徴量を表示できます。
2 + 特徴量セットを作成 新しい特徴量セットを作成します。
3 検索 現在表示しているデータセットまたは特徴量セットで特定の特徴量を検索します。
4 特徴量 選択された特徴量セットについて各特徴量行と列を表示します。
5 頻出値チャート 特徴量の最大頻出値に対する個々の値のカウントがプロットされます。
6 スナップショットポリシー 選択したデータセットのバージョンを表示します。 スナップショットのバージョンが選択されている場合、DataRobotはスナップショット作成の日付と時刻を表示します。 ドロップダウンをクリックして、以下の項目にアクセスします。
  • バージョン履歴:動的データセット(ライブデータ)と最新のスナップショットを表示する短縮バージョン履歴。
  • + スナップショットを作成:表示しているデータセットのスナップショットを作成します。 登録が完了すると、新しいスナップショットが最新バージョンとしてリストされ、ユースケースやデータレジストリからでもアクセスできるようになります。
  • バージョンを選択:右側のパネルでデータセットバージョンを開きます。
7 プレビューサンプル データセットの全行数のうち、プレビューの生成に使われた行数を表示します。
8 ラングリングレシピ データセットに関連付けられたラングリングレシピ(該当する場合)を表示したり、データセットのラングリングを続行したりできます。

追加のサマリー統計およびインサイトを表示する特徴量を選択します。

  要素 説明
1 特徴量ドロップダウン 現在表示中の特徴量を変更できます。
2 サマリー統計 データ品質の問題や一意の値など、特徴量のサマリー統計を表示します。
3 インサイト その特徴量の型で取得可能なインサイトを表示できます。
4 詳細を表示 チャートにカーソルを合わせると、追加情報が表示されます。
5 特徴量に移動 特徴量タイルを開き、表示していた特徴量を展開します。

特徴量タイル

選択された特徴量セット内の各特徴量を表示します。 特徴量をクリックすると、サマリー指標や頻度値などの追加情報が表示されます。 得られるインサイトは、特徴量の型によって異なります。

  要素 説明
1 ドロップダウンから特徴量を表示 特定の特徴量セットに含まれる特徴量を表示できます。
2 + 特徴量セットを作成 新しい特徴量セットを作成します。
3 検索 現在表示しているデータセットまたは特徴量セットで特定の特徴量を検索します。
4 特徴量 選択された特徴量セットに含まれる各特徴量、および各特徴量のサマリー統計を表示します。
5 スナップショットポリシー 選択したデータセットのバージョンを表示します。 スナップショットのバージョンを選択すると、スナップショットの作成日時が表示されます。 ドロップダウンをクリックして、以下の項目にアクセスします。
  • バージョン履歴:動的データセット(ライブデータ)と最新のスナップショットを表示する短縮バージョン履歴。
  • + スナップショットを作成:表示しているデータセットのスナップショットを作成します。 登録が完了すると、新しいスナップショットが最新バージョンとしてリストされ、ユースケースやデータレジストリからでもアクセスできるようになります。
  • バージョンを選択:右側のパネルでデータセットバージョンを開きます。
6 プレビューサンプル データセットの全行数のうち、プレビューの生成に使われた行数を表示します。
7 サマリーを表示 データセットの以下のサマリー情報を表示します。
  • 名前:エクスペリメントの設定に使用されたデータセットの名前。
  • 特徴量:選択した特徴量セットに含まれる特徴量の数。
  • 行:データセット内の行数。
  • データ品質評価:EDA1の一部としてモデリング中にDataRobotによって検出されたデータ品質の問題。
8 ラングリングレシピ データセットに関連付けられたラングリングレシピ(該当する場合)を表示したり、データセットのラングリングを続行したりできます。
9 特徴量変換を作成 データセット内の既存の特徴量を変換して、新しい特徴量を作成できます。

追加のサマリー統計およびインサイトを表示する特徴量を選択します。

  要素 説明
1 サマリー統計 データ品質の問題や一意の値など、特徴量のサマリー統計を表示します。
2 インサイト その特徴量の型で取得可能なインサイトを表示できます。
3 列の管理 列の非表示、表示、ピン留め、並べ替えができます。
4 特徴量変換を作成 データセット内の既存の特徴量を変換して、新しい特徴量を作成できます。

データセットのバージョン管理

データ探索ページはデータセットのバージョン管理をサポートしているので、同じページで新しいスナップショットの作成に加えて、データスナップショットの履歴にアクセスすることができます。 データセットのバージョン管理には、データ探索ページのどのビューからでもアクセスできます。

データセットのバージョンにアクセスするには、データのアクションの横にあるドロップダウンをクリックするか、右側のパネルでデータセットバージョンを開きます。

View dataset versioning in the data explore view.

  要素 説明
1 スナップショットポリシー 選択したデータセットのバージョンを表示します。 スナップショットのバージョンが選択されている場合、DataRobotはスナップショット作成の日付と時刻を表示します。 ドロップダウンをクリックして、以下の項目にアクセスします。
  • バージョン履歴:動的データセット(ライブデータ)と最新のスナップショットを表示する短縮バージョン履歴。
  • + スナップショットを作成:表示しているデータセットのスナップショットを作成します。 登録が完了すると、新しいスナップショットが最新バージョンとしてリストされ、ユースケースやデータレジストリからでもアクセスできるようになります。
  • バージョンを選択:右側のパネルでデータセットバージョンを開きます。
2 データセットバージョン データセットのバージョン履歴を表示します。 別のバージョンを表示するには、データセットをクリックします。
3 +スナップショットを作成/新しいバージョンをアップロード データセットの他のバージョンを追加できます。登録が完了すると、新しいデータセットがバージョン履歴に表示されます。 さらに、ユースケースとデータレジストリに追加されます。
  • 元のデータセットのスナップショットポリシーが動的またはスナップショットの場合、表示しているデータセットのスナップショットを作成する+ スナップショットを作成ボタンが使用可能になります。
  • 元のデータセットが静的(ローカルファイルとしてアップロードされたデータセット)の場合、データセットの更新済みのローカルバージョンをアップロードできる、新しいバージョンをアップロードボタンが使用可能になります。
スナップショットポリシーのデータアクション

データ探索ページは、次のスナップショットポリシーをサポートしています。

  • 動的:DataRobotはデータソースに接続し、ライブデータを使用して、選択したデータアクションを実行します。
  • スナップショット:DataRobotに保存され、選択したデータアクションを実行するために使用される固定スナップショット。 ライブデータが頻繁に変更される場合、このポリシーは繰り返しエクスペリメントに推奨されます。
  • 静的:選択したデータアクションを実行するために使用されるローカルファイル。

データのアクション

データ探索ページで以下のアクションを実行できます(これらのアクションは、現在選択されているビューに関係なく有効です)。

Available dataset actions from the data explore view.

  要素 説明
1 データセット名 データセットの名前を変更するには、データセットの名前をクリックします。 変更を保存するには、テキストフィールドの外側をクリックします。
2 データのアクション データのアクションドロップダウンを開き、現在表示しているデータセットで次のいずれかのアクションを実行します。
  • ラングリングを開始:データセットでデータラングリングを実行します。 動的データセットでのみ使用できます。
  • モデリングを開始:現在選択されているデータセットバージョンを使用してエクスペリメントを設定します。 デフォルトでは、データセットの最新バージョンが使用されます。
  • 特徴量探索を開始:特徴量探索を使用し、複数データセットで対話ベースの特徴量作成を実行します。
  • データセットをダウンロード:データセットをローカルにダウンロードします。 スナップショットが取得されたデータセットでのみ使用できます。
  • データセットを削除:ユースケースからデータセットを削除します。 データセットはデータタブに表示されなくなりますが、データレジストリで使用できます。データセットで作成されたエクスペリメントには影響を与えません。
3 データバージョンのアクション データセットバージョンで、アクションメニュー をクリックして、特定のスナップショットデータセットに対して次のいずれかのアクションを実行します。
  • モデリングを開始:このデータセットを使用してエクスペリメントを設定します。
  • データセットをダウンロード:データセットをローカルにダウンロードします。 スナップショットが取得されたデータセットでのみ使用できます。
  • 削除: データセットがバージョン履歴から削除されますが、データレジストリで使用できます。データセットで作成されたエクスペリメントには影響を与えません。

次のステップ

ここから、次のことができます。