Skip to content

How-to:DataRobotでデータを分析する

この基本ステップでは、データセットをアップロードして、DataRobotのExploratory Data Analysis(EDA)プロセスを起動し、DataRobotでデータの評価を開始する方法を紹介します。 ここで説明する手順は、このセクションの他の基本ステップで説明するより高度なプロセス(予測モデルの生成と比較、連続値ターゲット予測の実行など)の基礎となります。

EDAの詳細

DataRobotのEDA機能の詳細については、EDAのインサイトを参照してください。

ダウンロードするアセット

分析用のデータセットを準備するには、下のボタンをクリックしてDataRobotにアップロードできるように、ローカルにダウンロードします。 このセクションの他の基本ステップでは別のデータセットが必要になる場合があるため、別のガイドに従う際には、必ず正しいデータセットをダウンロードしてください。

データセットのダウンロード

ユースケースの作成

ユースケースとは、DataRobotワークベンチ内にあるフォルダーのようなコンテナのことで、特定のビジネス問題の解決に関連するすべてのもの(データセット、モデル、エクスペリメント、アプリケーション、ノートブック)を単一の管理可能なエンティティ内にグループ化します。 個々のユースケースアセットやユースケース全体を他のユーザーアカウントと共有できます。

新しいユースケースを作成するには:

  1. DataRobotにログインし、ワークベンチをクリックして、ユースケースディレクトリにアクセスします。
  2. + ユースケースの作成をクリックします。 ユースケースの名前を入力し、チェックマークをクリックします。

自動的に新しいユースケースが開き、ユースケースのアセットタイルが表示されます。 これで、ユースケースはデータのアップロード準備が整いました。

ユースケースの詳細については、ユースケースを参照してください。

データセットのインポート

まず、ユースケースのアセットタイルからデータセットをインポートします。

  1. 予測AIタイルを見つけ、データをクリックして、データアセットタイルにアクセスします。 このタイルには、ユースケースにアップロードされたすべてのデータが含まれています。

  2. ファイルをアップロードをクリックします。

  3. StackOverflow.csvファイルを見つけ、開くをクリックします。

データセットのサイズによっては、アップロード後の登録に少し時間がかかります。 進捗状況は、データアセットタイルのアップロードされたデータセットの名前の下に表示されます。

データセットの登録が完了したら、それをクリックして、探索的データ解析(EDA)の結果を表示します。

データの分析

ここに示す表の各行はアンケートの回答を表し、各列は各回答者の回答を表しています。 (以下に示す)サマリーを表示ボタンをクリックすると、データ品質評価のサマリーが表示されます。

ここから、DataRobotは多岐にわたる詳細情報を提供し、データの包括的な概要を示します。 以下のセクションでは、いくつかの重要な機能について簡潔にまとめていますが、DataRobotが提供するすべての機能を確認するには、各種タブやフィールドを実際にクリックする必要があります。

データ分析の詳細については、データインサイトの分析を参照してください。

特徴量のヒストグラムを表示する

前のセクションのスクリーンショットに示されているように、データプレビュータブでは、データセット内の各特徴量について小さなヒストグラムプロットが表示されます。 ヒストグラムをクリックすると、特徴量に関する追加の詳細と、拡大版のプロットを表示するビューが開きます。

上に示すように、サマリー統計領域は、データに問題があるかどうかの評価など、特徴量データ自体に関する貴重なインサイトを提供します。 ヒストグラムには、EdLevel特徴量が選択されているため、教育レベルごとのデータの分布が示されます。 このビューから、データセットに含まれる回答の大半が学士号以上の学歴を持つ個人からのものであることは明らかです。 (データ品質の問題の詳細については、この基本ステップ後半の[#identify-data-quality-issues]を参照してください。)

ヒストグラムは、(以下に示す)ボタンをクリックすることで、表の表示に切り替えることができます。この表には、特徴量の各カテゴリーに関する詳細が示されます。

ヒストグラムのさらに大きなバージョンは、特徴量に移動ボタンをクリックすることで表示できます。 これにより、特徴量タイル内でその特徴量が開かれます。

ここから、左側のペインに表示される一覧から目的の特徴量を選択することで、データセットで使用可能なすべての特徴量を表示できます。

データ品質の問題を特定する

DataRobotは、データに関する潜在的な問題の特定など、いくつかの機能を自動的に実行します。 データ品質の問題は、詳細を表示ボタンをクリックすることで特定できます。

データ品質に問題のある特徴量のみ表示ボタンをクリックすると、潜在的な問題がある特徴量が切り分けられます。これにより、問題の解決に集中できます。

この場合、表内の残りの列には、データの外れ値、つまり他のデータとは著しく異なるデータポイントが含まれます。 外れ値は、平均母集団を代表していないため、データを代表しないモデルになる可能性があります。 データ品質の問題のその他の例としては、ターゲットリーケージ、インライア、欠損値などがあります。 データ品質問題の詳細については、データ品質チェックを参照してください。

次のステップ

データを追加して分析したので、このセクションの他のチュートリアルのいずれかに進み、モデルを構築する方法と、モデルを評価してデプロイする方法について学習します。