バッチスコアリングスクリプト¶
注意
Pythonバッチスコアリングスクリプトは使用非推奨になり、バッチ予測スクリプトに置き換えられました。 スクリプトは一部の環境では引き続き機能する一方、マネージドAIプラットフォームの予測サーバーのレガシー予測APIートが無効化されているため、一部のコマンドは機能しません。
Pythonバッチスコアリングスクリプトは、予測APIを使用して、サイズの大きなファイルのスコアリングを効率的に行えるよう設計されています。 バッチスコアリングスクリプトを実行できるのは、専用の予測ワーカー(マネージドAIプラットフォームデプロイの場合)または専用の予測クラスター(セルフマネージドAIプラットフォームユーザーの場合)だけです。 CSV入力ファイルが最適なサイズのバッチに分割され、これらのバッチが同時に予測サーバーに送信されるので高い速度での処理が可能です。 バッチのスコアリングは個々の行よりもはるかに早く行われます。 このスクリプトは、ユーザーが操作することなく、キュー(処理待ち)、リソース管理、同時リクエスト管理などを実行します。 同時リクエストは、複数のプロセッサーを使用して予測を行うので、処理効率を大幅に向上しています。 しかし、予測コアの数よりも大きい<n>_concurrency
の値を使用すべきではありません。 予測コアの数が不明な場合は、DataRobotサポートに問い合わせてください。
前提条件¶
Python 2.7.8とその後に続く2.7.x バージョンにはバグが存在し、SSL接続が確立できないため対応していません。 このスクリプトではPython 2.7.7がサポートされていますが、高速な処理と優れたテキストデコーディングを行うためにはPython 3.4以降が推奨されます。 Anaconda 2.2.0以降を使用してdatarobot_batch_scoring
スクリプトをインストールできます。 インターネットから依存要素をダウンロードできない場合は、DataRobotサポートに連絡して、オンフランでのインストールに必要なすべてのコンポーネントが含まれるバンドルを入手してください。
インストール方法¶
以下のコマンドを使用してPython2と3用のバッチスコアリングパッケージをダウンロードおよびインストールしてください。
pip install -U datarobot_batch_scoring
代替インストール方法¶
DataRobotには、プロジェクトリリースページに2つの別のインストール方法があります。 このリンクをクリックする前にGitHubにログインしてください。 これらのインストール方法は、以下の要素を使用できない場合に便利です。
- インターネットアクセス
- 管理者特権
- Pythonパッケージマネージャー(pip)のインストール
- 正しいバージョンのPythonのインストール(
PyInstaller
、以下のオプション2を使用してください)
上記の条件が該当する場合は、以下の手順を使用します。
-
offlinebundle:Python2.7またはPython3+が使用可能な環境でのインストールに使用します。 Linux、OSX、またはWindows上で機能します。 これらのファイルには、リリースページに表示される名前に「offlinebundle」が付けられています。 インストールディレクトリは、zipまたはtarファイルに含まれています。
-
PyInstaller: DataRobotは、PyInstallerを使用して、Pythonに依存しない単一の実行可能ファイルを構築するので。 管理者特権なしでインストールすることができます。 リリースページでは、これらのファイルの名前に「executables」が付けられ、バージョンとプラットフォーム(Linux、Windows、またはOSX)も表示されます。 インストールディレクトリは、zipまたはtarファイルに含まれています。 Linux向けのPyInstallerビルドはCentOS 5以降のディストリビューションで機能します。質問がある、あるいはシステムでビルドを実行できない場合は、DataRobotサポートに連絡してください。
構文、例、および使用に関する注意¶
完全で最新のスコアリングスクリプトの構文および情報については、DataRobotのバッチスコアリングGithubページを参照してください。 このリンクをクリックする前にGitHubにログインしてください。
サンプル出力¶
以下の例に示すように、--verbose
スクリプトの出力は、スコアリング処理の進捗状況に関する情報を提供します。 画像の後で、特に有用なセクションについて説明しています。
-
--host="https://datarobot-xxxxx.datarobot.com"
: 予測APIエンドポイントのホスト名(予測に使うデータの保存場所) -
'user': 'mike@datarobot.com', 'api_token': 'ABCD1234XYZ7890', ... 'datarobot_key ': 'xxxxxxxxxxxxxxxxx', ... 'deployment_id': 'yyyyyyyyyyyyyyyyyy'
: ユーザー名および対応するAPIキー、DataRobotキーおよびデプロイID batch_scoring v1.16.4
: スクリプト名およびバージョン番号- 応答時間による符号化および方言の多チェック
Authorization has succeeded
: ログイン認証情報が有効であるとの検証MainProcess [WARNING] File output.csv exists. Do you want to remove output.csv (Yes/No)> y
: 指定した出力名のファイルがすでに存在するとの通知 | *1 responses sent | time elapsed 0.545090913773s
: スコアリング送信までの時間 |