Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

基本的なモデリングワークフロー

インポートが終了すると、データページが表示されます。 ここから、ターゲットの設定とプロジェクト設定の変更を行って、モデルを構築できます。 モデリングプロセスを開始すると、EDA2が開始されます。

一般的に、1つのターゲットを選択して 開始 をクリックすると、DataRobotは、アルゴリズム、前処理のステップ、特徴量の変換、チューニングパラメーターの何百万という組み合わせの可能性を検索します。 その後、教師ありの学習アルゴリズムを使用して、データの分析と(明白な)予測関係の識別を行います。 これらの関係性は、ターゲットの過去にわかっている値とその他の特徴量の関係性であり、これをもとに、未知データのターゲット値を予測することができます。

モデル構築ワークフロー

教師付き学習と教師なし学習の両方をサポートします。 こちらは、EDA1が完了した後にモデルを構築するための手順の概要および各手順の詳細へのリンクです。

  1. (オプション)データを探索します。
  2. (オプション)データ品質評価を調査します。
  3. ターゲット特徴量を設定するか、ターゲットなしをクリックして異常またはクラスターを選択することで教師なし学習実行を設定します。
  4. (オプション)特徴量探索のセカンダリーデータセットを追加します。
  5. (オプション)モデル構築をカスタマイズします。これには、以下が含まれます。
  6. モデリングモードを設定します。
  7. (オプション)時間認識モデリングを設定します(該当する場合)。
  8. モデル構築プロセスを開始します。 (DataRobotでは、構築プロセスが開始した後にプロジェクトが失敗した場合に特殊な処理を行うことができます。)
  9. (オプション)自動ターゲットリーケージ検知の結果を調査します。
  10. (オプション)新しい設定でモデリングを再実行します。

備考

DataRobotでは、大規模なデータセットの特殊なハンドリングを行って、表示およびモデル構築作業を効率化することもできます。 具体的には、早期ターゲット選択を使用して、構築パラメーターを設定し、取込みが完了したときに自動的に開始するようにプロジェクトを設定できます。 詳細については、プロジェクトサマリーの表示およびサマリー情報の解釈に関するセクションを参照してください。

モデル構築プロセスの詳細を参照してください。

データの探索

モデル構築プロセスを開始する前でも、データに関する情報を取得できます。 EDA1が完了した後、下にスクロールするか、参照リンクをクリックして、データの最初の分析を表示することができます。 EDA1は、データを探索するための次のリソースを提供します。

  1. データ品質評価

  2. DataRobotは各特徴量データ(変数)の型を判別します。対応しているデータ型については、こちらを参照してください。 データページのその他の情報としては、ユニーク数、欠損値、平均偏差値、中央偏差値、標準偏差値、最小値、最大値などがあります。

  3. 選択した特徴量のヒストグラムまたは頻出値のテーブルに加えて、特徴量の型を変更するダイアログ(詳細についてはここを参照)も表示されます。

ターゲット特徴量の設定

プロジェクトのモデル構築フェーズは、ターゲット特徴量の選択から始まります。 ターゲット特徴量は予測するデータセットの列名です。 その他の開始画面設定オプションは、ターゲットを選択するまで使用できません。

予測するターゲット特徴量名を入力します。 特徴量名の文字を入力するに従って、一致する特徴量がリスト表示されます。

別の方法として、データを探索するときに特徴量名の上にマウスを置くとターゲットとして使用リンクが表示されます。 リンクをクリックして、その特徴量をターゲットとして選択します。

ターゲットを入力すると、ターゲット特徴量の分布に関する情報を提供するヒストグラムが表示されます。

モデル構築のカスタマイズ

モデル構築前に構築パラメーターをカスタマイズする場合、種々の高度なパラメーター(最適化指標およびその他の指標)の変更、特徴量セットの作成、および特徴量の変換を行うことができます。 これらのオプションについては、以下を参照してください。

最適化指標

最適化指標は、モデルのスコア方法を定義します。 ターゲットを入力すると、データに基づいてデフォルトの指標が選択されます。 ターゲット特徴量を選択した後、指標の選択オプションが開始ボタンの下にリストされます。 最適化指標は、高度なオプションを表示リンクから変更できます。

特定の指標に最適化されたプロジェクトを選択および構築しても、DataRobotでは、各モデルで適用可能な多数の指標が計算されます。 構築が完了した後、別の指標に基づいてリーダーボードのリストを再表示できます。 モデル内の値は変更されませんが、この代替指標でのパフォーマンスに基づいてモデルの一覧の表示順序が変更されます。

精度の向上

精度が重要な場合は、モデル構築の前に高度なオプションを表示の「精度の最適化を行ったテンプレートを使用」チェックボックスを選択することを検討してください。 この機能を使用すると、モデル構築の速度は遅くなりますが、精度の高いブループリントが作成される可能性があります。 (たとえば、このオプションを有効にすると、より多くのツリーを含むXGBoostモデルが生成されますが、学習レートが低くなることや、より深いグリッド検索が実行されることがあります。)

その他の高度なオプション

高度なオプションを表示リンクからは、最適化指標以外の設定を行うこともできます。 ここからは、以下の設定を行うことができます。

新しい特徴量の作成

DataRobotは、2種類の変換(自動および手動)をサポートします。 このソフトウェアでは、特徴量の型Dateとして識別される列から派生した特徴量が自動的に作成されます。 DataRobotでは、ユーザーが作成する変換もサポートします。この変換は、特徴量セットに含めることができます。 追加情報については、特徴量の型の変換の詳細な説明を参照してください。

時間認識モデルを設定

時間が重要な次元であるプロジェクトの場合、時間を検定(OTV)または予測(時系列)に使用する時間認識モデルを作成するオプションが提供されます。 時間外検定(OTV)および自動化された時系列モデリングを使用して、個々のイベントを予測し、時間を使用して将来のデータのパフォーマンスを検定できます。 時間認識モデリングのオプションは、ターゲット特徴量を選択し、データセット内で日付/時刻特徴量がDataRobotで検出された場合に使用可能になります。 日付/時刻特徴量がない場合、このオプションはグレーアウトされます。モデリングワークフローは続行することができます。

モデリングモードの設定

備考

時間認識モデリングについては、複数ステージオートパイロットの説明を参照してください。

デフォルトでは、DataRobotはクイックオートパイロット(フルオートパイロットモードの短縮および最適化バージョン)を実行します。 オートパイロットでは、指定されたターゲット特徴量に基づいて、事前決定された実行モデルが選択され、トレーニングデータセットでモデルをトレーニングします。 サンプルの割合サイズは、選択したモード(下の表を参照)と時間認識設定に基づいています。

たとえば、フルオートパイロットでは、まず選択したモデルの全データの16%を使用してモデルを構築します。 モデル精度のスコアリングが行われると、DataRobotは上位16のモデルを選択し、それらに対してデータの32%を使用してモデル構築を再実行します。 その実行から上位8つのモデルが、データの64%(または500MBのデータのどちらか少ないほう)を使用してDataRobotが実行されます。 全てのサンプルサイズでの全てのモデル実行結果がリーダーボードに表示されます。 この方法は、初期段階でより多くのモデルを実行し、上位モデルのみを次の段階に進めることをサポートして、モデルの多様性を高め、オートパイロットのランタイムを高速化します。 詳細については、オートパイロットステージの計算に関する備考を参照してください。

オートパイロットを実行すると、500 MBのサンプルサイズが取得されます。 デプロイ用に選択されたモデルは80%で再実行されます(以前に取得された500 MBを上回ります)。 リポジトリからの任意のサンプルサイズ(500 MB以上)にモデルをトレーニングすることか、リーダーボードからの任意のサイズにモデルを再トレーニングできます。

どのモデルを実行するかを詳細に制御するには、開始ボタンの下にある追加オプションを使用します。 データセットが大きい場合は、早期ターゲット選択のセクションを参照してください。

備考

より小さなデータセットを操作する場合は、適用される違いの表を参照してください。

モデリングモードの説明

以下の表では、各モデリングモードについて説明しています。

モデリングモード 説明
クイック(デフォルト) クイックオートパイロットでは、64%のサンプルサイズを使用して、指定されたターゲット特徴量とパフォーマンス指標に基づいてモデルのサブセットを実行し、モデルのベースセットとインサイトをすばやく提供します。
オートパイロット 完全自動のオートパイロットモードでは、指定した特徴量に対して最適な予測モデルが選択されます。 デフォルトでは、オートパイロットは有用な特徴量の特徴量セットに対して実行されます。
手動 手動モードでは、実行するブループリントを完全に管理できます。 手動モードを選択すると、EDA2が完了した後にメッセージおよびリポジトリへのリンクが表示されます。
包括的 モデルの精度を高めるために、最大のオートパイロットサンプルサイズですべてのリポジトリブループリントを実行する包括的なオートパイロットモード。 このモードでは構築時間が大幅に長くなります。 時系列または異常検知プロジェクトには包括的なオートパイロットモードを使用できません。

構築の開始

構築を開始するには、特徴量セットを選択します。

次に、モデリングモードを選択し、開始をクリックしてEDA2を開始します。 モデリングプロセスが開始すると、アクティビティを示す回転アイコンがモデルタブの近くに表示されます。 モデルが完了すると、バッジ数も表示されます。

モデリングプロセスでは、ターゲット特徴量に最良の予測モデルが探索されます。 DataRobotのワーカーキューを使用して構築を管理することができます。 プロジェクトで構築に失敗した場合、DataRobotでは、サポートに送信できるトレースバックなどの情報が提供されます。

モデルが構築されると、DataRobotで使用されているEDA2データプロジェクトデータタブから参照できます。 処理が完了すると、特徴量セットを操作することや、データ内の関連性を視覚化することができます(データページを使用します)。

備考

ブラウザーを閉じた場合やログアウトした場合でも、モデル構築フェーズが開始されたプロジェクトのモデルの構築が続行されます。

構築の失敗

データをロードしてターゲットの設定とオプションの選択を行った後、(データ形式のエラーなどが原因で)プロジェクトの構築が失敗することがあります。 その場合、DataRobotでは、問題のトラブルシューティングに必要な情報が提供されます。 エラーが発生して構築されなかったプロジェクトは、トレースバック情報と共にプロジェクトの管理インベントリに保存されます。 これは、実行した特徴量エンジニアリングやその他のカスタマイズ前処理を失うことなく問題のデバッグや修正を行うために役立ちます。

最初の失敗では、次の要素を含むダイアログが表示されます。

  • 短いエラーメッセージ
  • 詳細リンクを拡張してトレースバックの詳細を表示するオプション
  • ダイアログを閉じるオプション

ダイアログを閉じると、プロジェクトの作成に失敗したことを示すメッセージと共に、プロジェクトの暫定サマリーが提供されます。 サポートに連絡リンクをクリックすると、使用可能な情報が表示されます。送信をクリックすると、情報がサポートチームに送信されます。 (アプリケーションからサポートに直接連絡できないように設定されている場合、リンクをクリックするとメールクライアントが開きます。)

この時点で、サポートが問題を調査する間に、別のプロジェクトでの作業を続行することができます。 失敗したプロジェクトを開くには、プロジェクトの管理を開きます。 失敗したプロジェクトには、問題を示すアイコンが表示されます。

プロジェクトを選択すると、暫定プロジェクトデータサマリーページが開きます。 ここでは、サポートに連絡するためのリンクを開くことや、トレースバックを表示することができます。

モデリングの設定をする

モデリングが完了したら、新しい設定を使用して(オートパイロット、クイック、または包括的モードで)プロセスを再実行できます。 右側のパネルにあるモデリングの設定をするを選択します。

  • モデリングモードの選択:オートパイロット、クイック、手動、または包括的から選択します。

  • モデリングに使用する特徴量セットを選択します。

  • 自動化設定を決定します(スコアリングコードをサポートするブループリントのみを含める、トップモデルからアンサンブルを作成する、デプロイ用のモデルを推奨するなど)。

設定したら、再実行をクリックしてモデリングプロセスを再度開始します。


更新しました August 15, 2024