Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

コマンドラインでのスコアリング

次のセクションでは、コマンドラインでのスコアリングの構文を示します。

コマンドラインオプション

オプション 必須/デフォルト値 説明
--help いいえ
デフォルト値:Disabled
使用可能なすべてのオプションに加えて、いくつかのモデルメタデータを出力します。
--input=<value> はい
デフォルト値:None
入力データのソースを定義します。 有効な値:
  • --input=- 標準入力からの入力を設定します
  • --input=</path/to/input/csv>/input.csv データのソースを設定します。
--output=<value> はい
デフォルト値:None
結果の出力方法を設定します。 有効な値:
  • --output=- 標準の出力に結果を書き込みます
  • --output=/path/to/output/csv/output.csv 結果をファイルに保存します。 出力ファイルには、常に同じ順序で元のファイルと同じ数の行が含まれます。 1GBよりも小さいファイルの場合、入力ファイルと同じ出力ファイルを指定して、入力ファイルをスコアリング済みのファイルで置き換えることができます。
--encoding=<value> いいえ
デフォルト値:デフォルトのシステムエンコーディング
ファイルのコンテンツを読み取るために使用する文字エンコーディングを設定します。 java.io APIおよびjava.lang APIの標準的な名前を使用してください。 このオプションを設定しない場合、ツールはUTF8およびUTF16 BOMを検出できます。
--delimiter=<value> いいえ
デフォルト値, (コンマ)
列の間の値を分割するためにCSVファイルで使用する区切り文字を指定します。備考: --delimiter=“;”オプションを使用するとセミコロン(;)を区切り文字として使用できます(;はbash/shellで予約済みの記号です)。
--passthrough_columns いいえ
デフォルト値:None
入力列に結果ファイルを含めます。 たとえば、フラグに列のセット(column1,column2など)が含まれる場合、出力には予測列、および列1と2だけが含まれます。 元の列をすべて含めるには、Allを使用します。 結果のファイルには同じ順序で列が含まれ、delimitersパラメーターと同じ形式と同じ値を使用します。 パラメーターを指定しない場合、このコマンドでは予測列だけが返されます。
--chunk_size=<value> いいえ
デフォルト値min(1MB, {file_size}/{cores_number})
初期データセットを複数のチャンクに「スライス」して、個別の非同期タスクのシーケンスでスコアリングします。 ほとんどの場合、デフォルト値で最良のパフォーマンスが生成されます。 スライスの部分を大きくするとモデルのスコアリング速度が速くなり、小さくするとスコアリング速度が遅くなります。
--workers_number=<value> いいえ
デフォルト値: 論理コアの数
複数の作業を同時に処理できるワーカーの数を指定します。 デフォルトでは、この値は論理コアの数に一致し、最良のパフォーマンスが得られます。
--log_level=<value> いいえ
デフォルト値INFO
コンソールに出力する情報のレベルを設定します。 利用可能なオプションは INFODEBUGTRACE である。
--pred_name=<value> いいえ
デフォルト値DR_Score
連続値プロジェクトの場合、このフィールドで、出力ファイルの予測列の名前を設定します。 分類プロジェクトの場合、予測ラベルはクラスラベルと同じになります。
--buffer_size=<value> いいえ
デフォルト値1000
非同期タスクシーケンスのサイズを制御します。 このツールを使用している間にOutOfMemoryExceptionエラーが発生する場合、より小さな値に設定します。 これは高度なパラメーターです。
--config=<value> いいえ
デフォルト値: .jarファイルのディレクトリ
batch.propertiesファイルの場所を設定すると、すべての構成パラメーターが単一のファイルに書き込まれます。 このファイルを.jarと同じディレクトリに配置する場合、このパラメーターを設定する必要はありません。 batch.propertiesを別のディレクトリに配置する場合、パラメーターの値をターゲットディレクトリのパスに設定する必要があります。
--with_explanations いいえ
デフォルト値:Disabled
予測の説明の計算を有効にします。
--max_codes=<value> いいえ
デフォルト値3
計算する説明の最大数を設定します。
--threshold_low=<value> いいえ
デフォルト値:Null
説明に含める予測行のしきい値(低)を設定します。
--threshold_high=<value> いいえ
デフォルト値:Null
説明に含める予測行のしきい値(高)を設定します。
--enable_mlops いいえ
デフォルト値:Enabled
スコアを追跡するMLOpsインスタンスを初期化します。
--dr_token=<value> はい(--enabled_mlopsが設定されている場合)
デフォルト値:None
監視エージェントのリクエストのための認可トークンを指定します。
--disable_agent いいえ
デフォルト値:Enabled
--enable_mlopsを有効にすると、オフライン追跡を許可するかどうかを設定します。
時系列オプション
--forecast_point=<value> いいえ
デフォルト値:None
予測を行うフォーマットされた日付。
--date_format=<value> いいえ
デフォルト値:None
出力に使用する日付形式。
--predictions_start_date=<value> いいえ
デフォルト値:None
予測の計算の開始タイミングを示すタイムスタンプ。
--predictions_end_date=<value> いいえ
デフォルト値:None
予測の計算の終了タイミングを示すタイムスタンプ。
--with_intervals いいえ
デフォルト値:None
予測区間の計算をオンにします。
--interval_length=<value> いいえ
デフォルト値:None
1から99までのint値としての間隔の長さ。
--time_series_batch_processing いいえ
デフォルト値:Disabled
時系列モデルのパフォーマンスを最適化したバッチ処理を可能にします。

備考

スコアリングコードの使用例も参照してください。

バッチプロパティファイル

batch.propertiesファイルを設定して、 上記のコマンドラインオプションのデフォルト値を変更することで、コマンドラインのスコアリング処理を簡素化できます。bashコマンドのオプションが多すぎると読みにくくなる可能性があるためです。 さらに、一部のコマンドラインオプションはスコアリング環境に依存するため、コマンドによってはオプションが重複することがあります。このような重複を回避するために、これらのパラメーターをbatch.propertiesファイルに保存して再利用できます。

batch.propertiesファイルでは次のプロパティを使用でき、リストされたコマンドラインオプションにマッピングされます。

バッチプロパティ オプションのマッピング
com.datarobot.predictions.batch.encoding --encoding
com.datarobot.predictions.batch.passthrough.columns --passthrough_columns
com.datarobot.predictions.batch.chunk.size=150 --chunk_size
com.datarobot.predictions.batch.workers.number= --workers_number
com.datarobot.predictions.batch.log.level=INFO --log_level
com.datarobot.predictions.batch.pred.name=PREDICTION --pred_name
com.datarobot.predictions.batch.buffer.size=1000 --buffer_size
com.datarobot.predictions.batch.enable.mlops=false --enable_mlops
com.datarobot.predictions.batch.disable.agent --disable_agent
com.datarobot.predictions.batch.max.file.size=1000000000 オプションのマッピングなし
同一ファイルへの読み書きを行う場合、このプロパティで元のファイルの最大サイズを設定し、スコアリングの前にコマンドラインインターフェイスですべてをメモリーに読み込めるようにします。
時系列パラメーター
com.datarobot.predictions.batch.forecast.point= --forecast_point
com.datarobot.predictions.batch.date.format=yyyy-MM-dd'T'HH:mm:ss.SSSSSS'Z' --date_format
com.datarobot.predictions.batch.start.timestamp= --predictions_start_date
com.datarobot.predictions.batch.end.timestamp= --predictions_end_date
com.datarobot.predictions.batch.with.interval --with_intervals
com.datarobot.predictions.batch.interval_length --interval_length
com.datarobot.predictions.batch.time.series.batch.proccessing --time_series_batch_processing

Javaヒープメモリーの増加

モデルのバイナリサイズによっては、Java仮想マシン(JVM)のヒープメモリーサイズを増やす必要があります。 モデルのスコアリングを行うときにOutOfMemoryError: Java heap space errorのエラーメッセージが表示された場合は、java -Xmx1024mを呼び出して数値を調整し、プロセスに十分なメモリーを割り当ててJavaヒープサイズを大きくしてください。 エラーが発生した場合にスコアリング結果の一貫性とゼロ以外の終了コードを保証するために、アプリケーションを-XX:+ExitOnOutOfMemoryErrorフラグで実行します。

次の例では、ヒープメモリーが2GBに増加します。

java -XX:+ExitOnOutOfMemoryError -Xmx2g -Dlog4j2.formatMsgNoLookups=true -jar 5cd071deef881f011a334c2f.jar csv --input=Iris.csv --output=Isis_out.csv 

更新しました September 28, 2023