[Hadoopにデプロイ]タブ¶
注意
スタンドアロンスコアリングエンジン(SSE)を含むHadoopのデプロイとスコアリングは、リリースv7.3(クラウドユーザーは2021年12月13日)から使用できなくなり、完全に使用非推奨となります(寿命終了)。廃止後は、Hadoopを使って予測を生成することはできません。
本機能の提供について
HadoopにデプロイタブではHadoop上でのインプレーススコアリングが可能ですが、マネージドAIクラウドのデプロイでは利用できません。
DataRobotは、HDFSに保存されたデータセット上のメモリー内モデルに対し、分散スコアリングを実行することができます。この操作は、[Hadoopにデプロイ]タブで実行します。その結果、指定したHadoopホスト上での datarobot-scoring
コマンドの実行が自動化されます。このコマンドは、DataRobotプロジェクト内で構築および精緻化されたモデルを使用し、そのモデルをさらに(場合によっては巨大な)HDFSクラスター上のデータセットに適用することを可能にします。単純化されたコマンド入力オプションおよびより詳細なコマンド入力オプションがあります。
ページ上でフィールドに必要事項を入力していく際、実行コマンドの下にあるテキストに、[実行]をクリックすると実行されるdatarobot-scoring
コマンドおよび引数の構文解説が表示されます。[実行]ボタンは、最低限の基本フィールドへの入力が完了した時点で利用可能になります。また、UIウィンドウから構文をコピーアンドペーストしてコマンドラインからdatarobot-scoring
コマンドを実行することもできます(下記のオプション2を参照してください)。
スコアリング用のモデルを取得する¶
Hadoopでのスコアリングには一般的な2つのシナリオがあります。
-
DataRobot GUI、具体的には[Hadoopにデプロイ]タブの使用。アドホックスコアリングリクエストの場合、このオプションが推奨されます。UIを使用すると、DataRobotによってファイルのダウンロードおよび「バックグラウンド」のその他のステップが処理されます。以下に説明するように、必要な操作はフィールドに入力して、[実行]を選択することだけです。HadoopにデプロイはOSS(オープンソース)モデルではサポートされていません。
-
datarobot-scoring
コマンドラインからコマンドを使用します。(上級) このオプションは、スコアリングをワークフローマネージャー(Oozie、など)に統合する場合などに使用します。コマンドラインスクリプトを使用する場合、モデルファイルをエクスポートする必要があります。.drx
ファイルを使用する際の構文、例、および手順については、コマンドラインスコアリングのセクションを参照してください。
基本的な「インプレースで予測スコアを計算」を完了させるには¶
「インプレースで予測スコアを計算」画面では、Hadoopクラスター内のデータに対する既存DataRobotモデルを使用するシンプルなメカニズムを提供します。下表は、Hadoop上のスコアリングに必要なフィールドを説明しています。その他の機能には、詳細オプションを使用します。
フィールド | 説明 |
---|---|
モデルのファイルパス | スコアリングに使用する現在の学習済みモデルをDataRobotが保存する際、その保存先のファイルのパスと名前。このフィールドは、Hadoopにデプロイタブを開いた際、その元となったモデルを基に、ランダムな16進数列により、DataRobotがあなたに代わって入力します。同じ名前が既に存在するときは、上書きされます。コマンドラインを使用して datarobot-scoring コマンドを実行する場合、スキーマ(hdfs:// )および絶対パス( など/tmp )を含む完全修飾されたパスを使用する必要があります。 |
入力パス | 入力ファイル/ディレクトリ(Hive表)、またはデータコマンドを含むソケット(tcp://<host>:<port> )がスコアリングに使用されます。 |
出力パス | モデルのスコアが書き込まれるHadoopクラスター上の新規出力ディレクトリ名(ファイルではありません)。出力ディレクトリが既に存在しないことを確認します。hdfs:// 接頭語が含まれているとエラーの原因になるため、含まないようにします。 |
高度なオプション | このオプションを選択すると、追加の詳細コマンドオプションの入力ボックスが利用できるようになります。 |
フィールドに必要事項を入力していく際、実行コマンドの構文解説が更新されます。この構文解説には、入力した値のほか、一部のSpark設定パラメーターに対するDataRobot初期設定が反映されます。
注意
バージョン2.0未満のApache Sparkでは、UTF-8エンコードテキストのみサポートします。エラーメッセージ「PredictionServiceUserError: 書式が正しくないCSV、スキーマとエンコーディングをご確認ください」
が表示された場合、ファイルのエンコーディングがUTF-8ではないことを確認してください。
高度な「インプレースで予測スコアを計算」を完了させるには¶
上記で説明した必須フィールドのほか、DataRobotは詳細機能を可能にするパラメーターをサポートします。これらパラメーターを入力するには:
- [詳細オプション]ボックス(インプレースで予測スコアを計算ページ)にチェックします。
-
結果得られるボックス内の、一覧表示された初期設定の前または後に、カーソルを置き、下記のパラメーターのいずれかを入力します。これら構文解説仕様について:
- [ ]はオプションの引数を示します
- <> ユーザーが提供した値を示します
フィールド | 説明 |
---|---|
入力ファイルの形式:CSV、JSON、またはparquet。デフォルトはCSVです | |
.csv入力形式の列名を提供するコンマ区切りストリング。ファイル内のヘッダーに問題がある場合、または欠損している場合、このフィールドを使用します。 | |
出力内に含まれる列名のコンマ区切りストリング。 | |
Hive表のスコアリングに使用されたHiveデータベースの名前とパス。 | |
--バッチサイズ |
DataRobotが一度にスコアリングするデータポイントの数。デフォルトは1000データポイントです。 |
--skip-header | 入力ファイルのヘッダーをスキップする指示。 |
Trueの場合、1パーティションにつき1ファイルの割合で出力が保存されます。デフォルトはFalseです。 | |
Trueの場合、値が行番号となっている(0から始まる)予測の出力結果へ(最初の列として)row_id列を追加します。デフォルトはFalseです。 | |
Trueの場合、不正な行がスキップされます。エラーのある行は、NaN 予測値または省略された行(行が解析できない場合)になります。デフォルトはFalseです。 |
|
シリアル化された出力レコードの形式( csv またはjson )。このオプションを設定しない場合、出力形式は入力形式と同じになります。parquet 入力形式が の場合、json 出力形式は になります。 |
|
--spark-conf= . |
YARN上で実行する際に使用するSpark設定パラメーター。必要な数の--spark-conf パラメーターを入力できます。詳しくは、下記を参照してください。 |
入力内容および初期設定のSparkパラメーターは、実行コマンドの構文に反映されます。
Sparkへの設定パラメーターの引き渡し¶
デフォルトでは、DataRobotは、下記のデフォルトのSpark設定値を提供します:
- spark.executor.memory: 4gメモリー
- spark.memory.storageFraction: 0.2(20%)
- spark.yarn.security.tokens.hive.enabled: false
- spark.executor.instances: 10インスタンス
多くの場合、上記のように高度なオプションボックスに直接入力することにより、これらの値を変更することや他の値を追加することができます。複数の追加的設定パラメーターをSparkコンテキストに渡すには、--spark-conf
パラメーターを使用します。次のサンプルスニペットは、いくつかの詳細オプションの構文を示します。
batch_size=1000 --spark-conf="spark.yarn.am.waitTime=150s" --spark-conf="spark.yarn.queue=datarobot"
その他のサポート対象のプロパティとその意味の完全なリストについては、Sparkプロパティの表を参照してください。
スコアリングプロセスのモニタリング¶
データセットの1部分でモデルをトレーニングした後、Hadoopクラスター上の大規模なデータセットで予測を作成する場合があります。この処理には時間がかかることがあるので、Sparkダッシュボードを使用してジョブステータスを監視することができます。
「Sparkダッシュボードを表示」リンクをクリックしてダッシュボードを開きます。スコアリングジョブの実行中にリンクをクリックすると、ジョブの進行状況を監視およびレポートするSparkダッシュボードが開きます。
ジョブが完了した後にリンクをクリックすると、様々なジョブ統計を提供するHadoop UIが表示されます。