コマンドラインでのスコアリング¶
次のセクションでは、コマンドラインでのスコアリングの構文を示します。
コマンドラインオプション¶
オプション | 必須/デフォルト値 | 説明 |
---|---|---|
--help |
いいえ デフォルト値:Disabled |
使用可能なすべてのオプションに加えて、いくつかのモデルメタデータを出力します。 |
--input=<value> |
はい デフォルト値:None |
入力データのソースを定義します。 有効な値:
|
--output=<value> |
はい デフォルト値:None |
結果の出力方法を設定します。 有効な値:
|
--encoding=<value> |
いいえ デフォルト値:デフォルトのシステムエンコーディング |
ファイルのコンテンツを読み取るために使用する文字エンコーディングを設定します。 java.io API およびjava.lang API の標準的な名前を使用してください。 このオプションを設定しない場合、ツールはUTF8およびUTF16 BOMを検出できます。 |
--delimiter=<value> |
いいえ デフォルト値: , (コンマ) |
列の間の値を分割するためにCSVファイルで使用する区切り文字を指定します。備考: --delimiter=“;” オプションを使用するとセミコロン(; )を区切り文字として使用できます(; はbash/shellで予約済みの記号です)。 |
--passthrough_columns |
いいえ デフォルト値:None |
入力列に結果ファイルを含めます。 たとえば、フラグに列のセット(column1,column2 など)が含まれる場合、出力には予測列、および列1と2だけが含まれます。 元の列をすべて含めるには、All を使用します。 結果のファイルには同じ順序で列が含まれ、delimiters パラメーターと同じ形式と同じ値を使用します。 パラメーターを指定しない場合、このコマンドでは予測列だけが返されます。 |
--chunk_size=<value> |
いいえ デフォルト値: min(1MB, {file_size}/{cores_number}) |
初期データセットを複数のチャンクに「スライス」して、個別の非同期タスクのシーケンスでスコアリングします。 ほとんどの場合、デフォルト値で最良のパフォーマンスが生成されます。 スライスの部分を大きくするとモデルのスコアリング速度が速くなり、小さくするとスコアリング速度が遅くなります。 |
--workers_number=<value> |
いいえ デフォルト値: 論理コアの数 |
複数の作業を同時に処理できるワーカーの数を指定します。 デフォルトでは、この値は論理コアの数に一致し、最良のパフォーマンスが得られます。 |
--log_level=<value> |
いいえ デフォルト値: INFO |
コンソールに出力する情報のレベルを設定します。 利用可能なオプションは INFO 、DEBUG 、TRACE である。 |
--pred_name=<value> |
いいえ デフォルト値: DR_Score |
連続値プロジェクトの場合、このフィールドで、出力ファイルの予測列の名前を設定します。 分類プロジェクトの場合、予測ラベルはクラスラベルと同じになります。 |
--buffer_size=<value> |
いいえ デフォルト値: 1000 |
非同期タスクシーケンスのサイズを制御します。 このツールを使用している間にOutOfMemoryException エラーが発生する場合、より小さな値に設定します。 これは高度なパラメーターです。 |
--config=<value> |
いいえ デフォルト値: .jarファイルのディレクトリ |
batch.properties ファイルの場所を設定すると、すべての構成パラメーターが単一のファイルに書き込まれます。 このファイルを.jarと同じディレクトリに配置する場合、このパラメーターを設定する必要はありません。 batch.properties を別のディレクトリに配置する場合、パラメーターの値をターゲットディレクトリのパスに設定する必要があります。 |
--with_explanations |
いいえ デフォルト値:Disabled |
予測の説明の計算を有効にします。 |
--max_codes=<value> |
いいえ デフォルト値: 3 |
計算する説明の最大数を設定します。 |
--threshold_low=<value> |
いいえ デフォルト値:Null |
説明に含める予測行のしきい値(低)を設定します。 |
--threshold_high=<value> |
いいえ デフォルト値:Null |
説明に含める予測行のしきい値(高)を設定します。 |
--enable_mlops |
いいえ デフォルト値:Enabled |
スコアを追跡するMLOpsインスタンスを初期化します。 |
--dr_token=<value> |
はい(--enabled_mlops が設定されている場合) デフォルト値:None |
監視エージェントのリクエストのための認可トークンを指定します。 |
--disable_agent |
いいえ デフォルト値:Enabled |
--enable_mlops を有効にすると、オフライン追跡を許可するかどうかを設定します。 |
時系列オプション | ||
--forecast_point=<value> |
いいえ デフォルト値:None |
予測を行うフォーマットされた日付。 |
--date_format=<value> |
いいえ デフォルト値:None |
出力に使用する日付形式。 |
--predictions_start_date=<value> |
いいえ デフォルト値:None |
予測の計算の開始タイミングを示すタイムスタンプ。 |
--predictions_end_date=<value> |
いいえ デフォルト値:None |
予測の計算の終了タイミングを示すタイムスタンプ。 |
--with_intervals |
いいえ デフォルト値:None |
予測区間の計算をオンにします。 |
--interval_length=<value> |
いいえ デフォルト値:None |
1 から99 までのint 値としての間隔の長さ。 |
--time_series_batch_processing |
いいえ デフォルト値:Disabled |
時系列モデルのパフォーマンスを最適化したバッチ処理を可能にします。 |
備考
スコアリングコードの使用例も参照してください。
バッチプロパティファイル¶
batch.properties
ファイルを設定して、 上記のコマンドラインオプションのデフォルト値を変更することで、コマンドラインのスコアリング処理を簡素化できます。bashコマンドのオプションが多すぎると読みにくくなる可能性があるためです。 さらに、一部のコマンドラインオプションはスコアリング環境に依存するため、コマンドによってはオプションが重複することがあります。このような重複を回避するために、これらのパラメーターをbatch.properties
ファイルに保存して再利用できます。
batch.properties
ファイルでは次のプロパティを使用でき、リストされたコマンドラインオプションにマッピングされます。
バッチプロパティ | オプションのマッピング |
---|---|
com.datarobot.predictions.batch.encoding |
--encoding |
com.datarobot.predictions.batch.passthrough.columns |
--passthrough_columns |
com.datarobot.predictions.batch.chunk.size=150 |
--chunk_size |
com.datarobot.predictions.batch.workers.number= |
--workers_number |
com.datarobot.predictions.batch.log.level=INFO |
--log_level |
com.datarobot.predictions.batch.pred.name=PREDICTION |
--pred_name |
com.datarobot.predictions.batch.buffer.size=1000 |
--buffer_size |
com.datarobot.predictions.batch.enable.mlops=false |
--enable_mlops |
com.datarobot.predictions.batch.disable.agent |
--disable_agent |
com.datarobot.predictions.batch.max.file.size=1000000000 |
オプションのマッピングなし 同一ファイルへの読み書きを行う場合、このプロパティで元のファイルの最大サイズを設定し、スコアリングの前にコマンドラインインターフェイスですべてをメモリーに読み込めるようにします。 |
時系列パラメーター | |
com.datarobot.predictions.batch.forecast.point= |
--forecast_point |
com.datarobot.predictions.batch.date.format=yyyy-MM-dd'T'HH:mm:ss.SSSSSS'Z' |
--date_format |
com.datarobot.predictions.batch.start.timestamp= |
--predictions_start_date |
com.datarobot.predictions.batch.end.timestamp= |
--predictions_end_date |
com.datarobot.predictions.batch.with.interval |
--with_intervals |
com.datarobot.predictions.batch.interval_length |
--interval_length |
com.datarobot.predictions.batch.time.series.batch.proccessing |
--time_series_batch_processing |
Javaヒープメモリーの増加¶
モデルのバイナリサイズによっては、Java仮想マシン(JVM)のヒープメモリーサイズを増やす必要があります。 モデルのスコアリングを行うときにOutOfMemoryError: Java heap space error
のエラーメッセージが表示された場合は、java -Xmx1024m
を呼び出して数値を調整し、プロセスに十分なメモリーを割り当ててJavaヒープサイズを大きくしてください。
エラーが発生した場合にスコアリング結果の一貫性とゼロ以外の終了コードを保証するために、アプリケーションを-XX:+ExitOnOutOfMemoryError
フラグで実行します。
次の例では、ヒープメモリーが2GBに増加します。
java -XX:+ExitOnOutOfMemoryError -Xmx2g -Dlog4j2.formatMsgNoLookups=true -jar 5cd071deef881f011a334c2f.jar csv --input=Iris.csv --output=Isis_out.csv