How-to:連続値モデルの評価¶
この基本ステップでは、機械学習を使用して、アンケートのさまざまな回答によって開発者の給与がどのように予測されるかを特定します。 これは、人事部門がそのポジションに必要な経験に基づいて個人の給与を決定するという観点で考えてみてください。 モデルは数値を予測する必要があるため、これは連続値問題です。
ダウンロードするアセット¶
この基本ステップに従って操作するには、連続値モデルのトレーニングと評価に使用するデータセットを以下からダウンロードしてください。 1つ目はトレーニングデータセットで、モデルの構築に使用されます。 2つ目はテストデータセットで、予測の生成に使用されます。
重要
DataRobotでのデータ分析入門で詳しく説明されている手順に従って、データセットをアップロードし、モデリングの準備をします。
Stack Overflowのアンケートデータ¶
Stack Overflowでは毎年、数千人の開発者の意見を収集する調査を実施しています。 この調査では、好きな技術や職種に対する希望、さらには給与など、さまざまな情報を収集しています。
今回の調査データ:
- 2019年に収集された。
- 匿名化され、オンラインで公開されている。
- 90,000件以上の回答が含まれている。
- 多様な情報タイプ(テキストやカテゴリーなど)で構成されている。
- 数百行を超える規模。
モデルの構築¶
データのアップロードと分析が完了したので、モデルを構築します。
このセクションの手順では、CompTotal特徴量によって示される給与額の予測に使用できるモデルを作成します。
-
データのアクション > モデリングを開始をクリックします。
-
新しいエクスペリメントを設定ウィンドウで、ターゲット特徴量フィールドに
CompTotalを指定します。 -
残りのフィールドはデフォルトのままにして、Nextへ >をクリックします。
備考
追加設定の詳細については、モデリング設定の開始を参照してください。
-
すべてのパーティショニング変更フィールドをデフォルトのままにして、モデリングを開始をクリックします。
-
DataRobotはモデルの構築を開始します。
-
しばらくすると、モデルリーダーボードが表示され、トレーニングの進捗状況が示されます。
モデル構築にかかる時間
モデル構築にかかる時間は、データセットのサイズによって異なります。 完了すると、ワーカーペインに「現在実行中のジョブはありません」と表示されます。
構築後の各モデルの評価方法について詳しくは、モデルを比較を参照してください。
モデルの評価と解釈¶
一連のモデルを分析する準備ができたので、最上位モデルを選択して詳細を確認します。 DataRobotでは、モデルリーダーボードで最も精度の高いモデルにデプロイの準備済みというフラグが設定されます。
モデルをクリックすると、その詳細情報が表示されます。 詳細ペインのタブを使用して、以下に示すように、さまざまなインサイトを探索します。
これらのタブには、使用可能な評価指標の概要が表示されます。 説明 > 個々の予測の説明 、 計算するの順にクリックして、DataRobotにデータセットの各行の予測数を生成させます。
上のグラフからわかるように、モデルはデータセットの特徴量を基に予想される給与範囲を示します。 グラフの下の表は、予測結果の例として、モデルの5つの予測のサンプルを示しています。 いずれかの予測をクリックすると、その詳細が表示されます。
モデルの評価方法と、各インサイトの意味について詳しくは、モデルインサイトでの評価を参照してください。
モデルで予測する¶
最も精度の高いモデルが特定され、選択されたら、それを使って予測を行うことができます。
-
モデルのアクション > 予測を作成をクリックします。
-
予測を作成ウィンドウで、予測に使用するデータセットを指定します。 この場合、ファイルを選択 > ローカルファイルをアップロードをクリックして、テストデータセットを使用します。 ダウンロードするアセットセクションでダウンロードしたファイルを参照し、
test_set_usd.csvファイルを選択します。 -
新しいデータがアップロードされて処理されたら、予測を計算およびダウンロードをクリックして予測を生成します。 データセットのサイズによっては、このプロセスに時間がかかることがあります。
予測実行の詳細については、予測の作成を参照してください。
結果の確認¶
予測値が正常に生成されたら、ダウンロードした予測値ファイルをスプレッドシートアプリケーションで開いて、モデルのパフォーマンスを確認します。 または、ワークベンチをクリックし、テーブルからユースケースを選択することで、予測値をDataRobotで確認できます。
アップロードされたファイルが登録されたら、新しいデータセットをクリックして、予測を表示します。












