コマンドラインでのスコアリング¶
次のセクションでは、コマンドラインでのスコアリングの構文を示します。
Command line options¶
オプション | 必須/デフォルト値 | 説明 |
---|---|---|
--help |
いいえ デフォルト値:Disabled |
使用可能なすべてのオプションに加えて、いくつかのモデルメタデータを出力します。 |
--input=<value> |
はい デフォルト値:None |
入力データのソースを定義します。 有効な値:
|
--output=<value> |
はい デフォルト値:None |
結果の出力方法を設定します。 有効な値:
|
--encoding=<value> |
いいえ デフォルト値:デフォルトのシステムエンコーディング |
ファイルのコンテンツを読み取るために使用する文字エンコーディングを設定します。 java.io API およびjava.lang API の標準的な名前を使用してください。 このオプションを設定しない場合、ツールはUTF8およびUTF16 BOMを検出できます。 |
--delimiter=<value> |
いいえ デフォルト値: , (コンマ) |
列の間の値を分割するためにCSVファイルで使用する区切り文字を指定します。備考: --delimiter=“;” オプションを使用するとセミコロン(; )を区切り文字として使用できます(; はbash/shellで予約済みの記号です)。 |
--passthrough_columns |
いいえ デフォルト値:None |
入力列に結果ファイルを含めます。 たとえば、フラグに列のセット(column1,column2 など)が含まれる場合、出力には予測列、および列1と2だけが含まれます。 元の列をすべて含めるには、All を使用します。 結果のファイルには同じ順序で列が含まれ、delimiters パラメーターと同じ形式と同じ値を使用します。 パラメーターを指定しない場合、このコマンドでは予測列だけが返されます。 |
--chunk_size=<value> |
いいえ デフォルト値: min(1MB, {file_size}/{cores_number}) |
初期データセットを複数のチャンクに「スライス」して、個別の非同期タスクのシーケンスでスコアリングします。 ほとんどの場合、デフォルト値で最良のパフォーマンスが生成されます。 スライスの部分を大きくするとモデルのスコアリング速度が速くなり、小さくするとスコアリング速度が遅くなります。 |
--workers_number=<value> |
いいえ デフォルト値: 論理コアの数 |
複数の作業を同時に処理できるワーカーの数を指定します。 デフォルトでは、この値は論理コアの数に一致し、最良のパフォーマンスが得られます。 |
--log_level=<value> |
いいえ デフォルト値: INFO |
コンソールに出力する情報のレベルを設定します。 利用可能なオプションは INFO 、DEBUG 、TRACE である。 |
--pred_name=<value> |
いいえ デフォルト値: DR_Score |
連続値プロジェクトの場合、このフィールドで、出力ファイルの予測列の名前を設定します。 分類プロジェクトの場合、予測ラベルはクラスラベルと同じになります。 |
--buffer_size=<value> |
いいえ デフォルト値: 1000 |
非同期タスクシーケンスのサイズを制御します。 このツールを使用している間にOutOfMemoryException エラーが発生する場合、より小さな値に設定します。 これは高度なパラメーターです。 |
--config=<value> |
いいえ デフォルト値: .jarファイルのディレクトリ |
batch.properties ファイルの場所を設定すると、すべての構成パラメーターが単一のファイルに書き込まれます。 このファイルを.jarと同じディレクトリに配置する場合、このパラメーターを設定する必要はありません。 batch.properties を別のディレクトリに配置する場合、パラメーターの値をターゲットディレクトリのパスに設定する必要があります。 |
--with_explanations |
いいえ デフォルト値:Disabled |
予測の説明の計算を有効にします。 |
--max_codes=<value> |
いいえ デフォルト値: 3 |
計算する説明の最大数を設定します。 |
--threshold_low=<value> |
いいえ デフォルト値:Null |
説明に含める予測行のしきい値(低)を設定します。 |
--threshold_high=<value> |
いいえ デフォルト値:Null |
説明に含める予測行のしきい値(高)を設定します。 |
--enable_mlops |
いいえ デフォルト値:Enabled |
スコアを追跡するMLOpsインスタンスを初期化します。 |
--dr_token=<value> |
Yes if --enabled_mlops is set. デフォルト値:None |
監視エージェントのリクエストのための認可トークンを指定します。 |
--disable_agent |
いいえ デフォルト値:Enabled |
--enable_mlops を有効にすると、オフライン追跡を許可するかどうかを設定します。 |
時系列オプション | ||
--forecast_point=<value> |
いいえ デフォルト値:None |
予測を行うフォーマットされた日付。 |
--date_format=<value> |
いいえ デフォルト値:None |
出力に使用する日付形式。 |
--predictions_start_date=<value> |
いいえ デフォルト値:None |
予測の計算の開始タイミングを示すタイムスタンプ。 |
--predictions_end_date=<value> |
いいえ デフォルト値:None |
予測の計算の終了タイミングを示すタイムスタンプ。 |
--with_intervals |
いいえ デフォルト値:None |
予測区間の計算をオンにします。 |
--interval_length=<value> |
いいえ デフォルト値:None |
1 から99 までのint 値としての間隔の長さ。 |
--time_series_batch_processing |
いいえ デフォルト値:Disabled |
時系列モデルのパフォーマンスを最適化したバッチ処理を可能にします。 |
備考
スコアリングコードの使用例も参照してください。
Batch properties file¶
You can configure the batch.properties
file to change the default values for the command line options above, allowing you to simplify the command line scoring process, as having too many options for a bash command can make it difficult to read. In addition, some command line options depend on your scoring environment, leading to duplicate options for some commands; to avoid these duplications, you can save those parameters to the batch.properties
file and reuse them.
The following properties are available in the batch.properties
file, mapping to the listed command line option:
Batch property | Option mapping |
---|---|
com.datarobot.predictions.batch.encoding |
--encoding |
com.datarobot.predictions.batch.passthrough.columns |
--passthrough_columns |
com.datarobot.predictions.batch.chunk.size=150 |
--chunk_size |
com.datarobot.predictions.batch.workers.number= |
--workers_number |
com.datarobot.predictions.batch.log.level=INFO |
--log_level |
com.datarobot.predictions.batch.pred.name=PREDICTION |
--pred_name |
com.datarobot.predictions.batch.buffer.size=1000 |
--buffer_size |
com.datarobot.predictions.batch.enable.mlops=false |
--enable_mlops |
com.datarobot.predictions.batch.disable.agent |
--disable_agent |
com.datarobot.predictions.batch.max.file.size=1000000000 |
No option mapping To read and write to and from the same file, this property sets the maximum original file size, allowing the command line interface to read it all in memory before scoring. |
時系列パラメーター | |
com.datarobot.predictions.batch.forecast.point= |
--forecast_point |
com.datarobot.predictions.batch.date.format=yyyy-MM-dd'T'HH:mm:ss.SSSSSS'Z' |
--date_format |
com.datarobot.predictions.batch.start.timestamp= |
--predictions_start_date |
com.datarobot.predictions.batch.end.timestamp= |
--predictions_end_date |
com.datarobot.predictions.batch.with.interval |
--with_intervals |
com.datarobot.predictions.batch.interval_length |
--interval_length |
com.datarobot.predictions.batch.time.series.batch.proccessing |
--time_series_batch_processing |
Javaヒープメモリーの増加¶
モデルのバイナリサイズによっては、Java仮想マシン(JVM)のヒープメモリーサイズを増やす必要があります。 モデルのスコアリングを行うときにOutOfMemoryError: Java heap space error
のエラーメッセージが表示された場合は、java -Xmx1024m
を呼び出して数値を調整し、プロセスに十分なメモリーを割り当ててJavaヒープサイズを大きくしてください。
エラーが発生した場合にスコアリング結果の一貫性とゼロ以外の終了コードを保証するために、アプリケーションを-XX:+ExitOnOutOfMemoryError
フラグで実行します。
次の例では、ヒープメモリーが2GBに増加します。
java -XX:+ExitOnOutOfMemoryError -Xmx2g -Dlog4j2.formatMsgNoLookups=true -jar 5cd071deef881f011a334c2f.jar csv --input=Iris.csv --output=Isis_out.csv