DataRobot Notebooksの基本ステップ¶
この基本ステップでは、DataRobot NotebooksでAIアクセラレーターを使ってコードファーストのユースケースを実行する方法を紹介します。 以下の操作を行います。
- AIアクセラレーターにアクセスしてダウンロードする。
- ワークベンチでユースケースを作成する。
- ユースケースでAIアクセラレーターをノートブックとしてアップロードする。
- DataRobot Notebooksでアクセラレーターを実行する。
前提条件¶
ワークフローを進める前に、次のことを行います。
- APIクイックスタートガイドを参照して、一般的なAPIタスクと設定を確認します。
- ユースケースの概要をこちらで確認します。
1. AIアクセラレーターにアクセスする¶
この基本ステップでは、DataRobot APIを活用して、ファンタジーベースボールで各選手に共通の指標を予測するために連携する複数のモデルをすばやく構築します。 前提条件のリンクからユースケースの概要を確認したら、GitHub上のアクセラレーターのコピーをお使いのコンピューターにダウンロードします。
2. ワークベンチでユースケースを作成する¶
ワークベンチのディレクトリから、右上のユースケースを作成をクリックします。
詳しくはこちら:ユースケース
3. アクセラレーターのアップロード¶
新しく作成したユースケースで、AIアクセラレーターをノートブックとしてアップロードし、DataRobotで作業します。 追加 > ノートブック > 既存のノートブックをアップロードを選択します。 以前にダウンロードしたAIアクセラレーターのローカルコピーを選択し、アップロードをクリックします。 アップロードが完了したら、インポートを選択します。
アップロードされると、アクセラレーターはユースケースの一部としてDataRobot Notebooksで開かれます。
詳しくはこちら:ノートブックを追加
4. ノートブック環境の設定¶
アクセラレーターでコードを編集、作成、実行するには、まずノートブック環境を設定して実行する必要があります。 環境イメージは、ノートブック内で使用されるコーディング言語、依存関係、およびオープンソースライブラリを決定します。 イメージで使用可能なすべてのパッケージのリストを表示するには、環境タブでそのイメージの上にカーソルを置きます。
利用可能な環境を確認し、この基本ステップでは、Python 3.9.18のイメージを選択してデフォルトの環境設定を選択します。
詳しくはこちら:環境管理
5. 環境の実行¶
アクセラレーターを使って作業を開始するには、ツールバーでオンに切り替えて環境を起動します。
環境が初期化されるまでしばらく待ち、「起動済み」ステータスが表示されたら、コードの記述、編集、実行を開始できます。
ユースケースを読み、コードセルを実行していきます。 コードを実行するには、セルの横にある再生ボタンを選択します。
詳しくはこちら:セルの作成と実行
6. ライブラリのインストールとインポート¶
pybaseballライブラリをインストールするには、セルを編集してpip install
コマンドのコメントを解除してから、セルを実行します。
次のセルを実行します。これにより、ノートブックに必要なライブラリがインポートされます。
7. データのインポート¶
"Import player batting data"セルを実行して、このアクセラレーターで使用されるデータを取得します。 この後に続くセルはデータを構造化し、モデリングの準備をします。
8. モデルの構築¶
データを準備したら、アクセラレーターはDataRobotのエクスペリメントを作成し、構築されたデータセットに対して多くのモデルをトレーニングします。 このアクセラレーターは特徴量探索を利用します。これは、DataRobotの自動特徴量エンジニアリングツールで、前のステップにセカンダリーデータセットを使うことで、野球選手の最近の成績について、時間を認識するローリング特徴量を派生させます。 セルに従ってモデリングプロセスを開始します。
詳しくはこちら:特徴量探索
9. 予測の実行¶
モデルの構築に成功すると、アクセラレーターはリーダーボードを表示し、モデルを評価します。 パフォーマンスが上位のモデルを1つ選択し、テストデータで正常に予測できるかどうかテストします。 この基本ステップでは、DataRobotはAVG Blenderモデルを推奨します。 予測を行う前に、野球選手のデータをスコアリングするための注意事項、オプション、メンテナンスを確認し(詳細については以下のスクリーンショットを参照)、コードを実行します。
予測が返さたら、上位10選手の予想打率を評価できます。
詳しくはこちら:DataRobot予測API
10. リフトチャートのプロット¶
最後に、このコードを使用して、予想打率と実際の打率(実測値)を比較するリフトチャートを作成します。 実際の打率が予想打率を上回っているのは、サンプリングの偏りによるものです。 たとえば、7月中旬までに250回以上打席に立った選手のみが評価されます。つまり、より良いプレーをしている選手のほうが選ばれる可能性が高いです。 さらに、半シーズンのデータしかないため、結果の変動は、フルシーズンでトレーニングされたモデルよりも大きくなり、チャートの最高打率はより高くなります。
詳しくはこちら:リフトチャート