AutoML(V7.2)¶
2021年9月13日
DataRobot v7.2.0リリースには、このセクションで説明する多くの新しいAutoML機能と機能強化が含まれています。時系列(AutoTS)およびMLOpsのリリースノートで説明されている新機能も参照してください。
DataRobotの有効期限切れが近い古い機能に関するサポート変更については、廃止に関する重要な告知を参照してください。このドキュメントには、DataRobotの修正された問題も記載されています。
機能のハイライト¶
リリース7.2の主な新機能には以下が含まれます。
ユーザーインターフェースの機能強化¶
新しいログインエクスペリエンス¶
このリリースでは、DataRobotプラットフォームアプリケーションユーザー向けの新しいログインエクスペリエンスが導入されています。新しいページでは、DataRobot製品が提供するイノベーションと技術革新のレベルをお伝えするため、デザインを一新しました。既存のログインワークフローには影響ありません。
ROC曲線の再設計¶
[ROC曲線]タブのデザインが変更され、実行できるモデルの評価戦略が効率化されました。予測分布グラフ、ROC曲線、混同行列、指標のサマリーに加えて、[ROC曲線]タブで収益曲線、PR曲線、カスタムチャートを生成できるようになりました。
詳細については、ROC曲線を参照してください。
プロジェクト名を共有、編集するツールの新しいロケーション¶
今回のリリースでは、ナビゲーションの向上のため、プロジェクト共有ツールとプロジェクト名編集ツールのホームが新しく追加されました。 プロジェクト管理センター(プロジェクトの管理)からも引き続き利用できますが、プロジェクトドロップダウンから直接ツールにすばやくアクセスできるようになりました。
データの強化¶
新しいSparkバージョンによるパフォーマンスの向上¶
リリース7.2では、特徴量探索とSpark SQLに使用されているSparkのバージョンがSpark 3.0にアップグレードされています。Sparkのパフォーマンス向上に加えて、今回のアップグレードではAIカタログ(Java 11を使用)とJDBCの互換性が向上し、出荷可能なコードベースが小さくなりました。DataRobotは、Javaバージョン8以降と互換性のあるすべてのドライバーをサポートするようになりました。
OAuthを使用したSnowflakeおよびGoogle BigQueryへの接続¶
SnowflakeおよびGoogle BigQueryのユーザーは、OAuthシングルサインオンを使用してデータ接続を設定できます。設定した後は、運用データベースからデータを読み取ってモデル構築と予測に使用することができます。詳細については、OAuthによるデータ接続を参照してください。
特徴量探索機能¶
特徴量探索での関係性エディターのセットアップガイド¶
特徴量探索では、複数のデータセットから新しい特徴量が生成されるため、複数のデータセットを統合するために特徴量エンジニアリングを手動で行う必要はありません。関係性エディターを使用してデータセットを結合し、特徴量探索を準備することができます。
関係性エディターのセットアップガイドは、EDA(データ)ページのデータセットの追加ボタンをクリックすると表示される新しい中間画面です。時間認識特徴量の予測ポイントを指定し、特徴量探索のために結合するデータセットを追加するプロセスについて説明します。詳細については、特徴量探索プロジェクトの作成を参照してください。
特徴量探索エンジニアリング管理¶
現在、一般公開されている特徴量探索エンジニアリング管理では、DataRobotが特徴量エンジニアリングを行う方法に影響を与えることができます。
特定のコントロールを有効にすることで、ドメイン知識を活用して特徴量エンジニアリングを導き出したり、精度を向上させたりすることができます。処理スピードを遅らせたり、利害関係者への説明が困難であったりする特定の変換を除外すると良いかもしれません。詳細については、特徴量エンジニアリング管理の設定を参照してください。
特徴量探索設定の強化¶
データページの特徴量探索タブには、データセットの関係性の詳細、特徴量派生のサマリー、そして特徴量派生のログが表示されます。特徴量探索の結果得られたセカンダリーデータセット、探索された特徴量、派生した特徴量の数を確認できるようになりました。表示内容を増やすをクリックすると、特徴量探索の際に使用された特徴量エンジニアリング管理と、各管理の詳細を確認できます。
詳細については、関係性の定義を参照してください。
カテゴリー統計特徴量タイプ¶
カテゴリー統計では、カテゴリー特徴量の各カテゴリーについて、合計、最大、平均などの数値統計を探索することができます。次の例では、特徴量探索中に、製品タイプ特徴量の各カテゴリーについて支出の数値統計を探索しています。
- Spending\(30 days min\)
- Spending\(30 days min by Product\_Type = A\)
- Spending\(30 days min by Product\_Type = B\)
- Spending\(30 days min by Product\_Type = C\) ..
カテゴリー別統計の集計はデフォルトで無効化されています。この機能は、特徴量探索の設定ページの特徴量エンジニアリングタブで有効にすることができます。詳細については、カテゴリー統計を参照してください。
モデリング特徴量¶
AIアプリビルダーを使用した専用のAIアプリケーション¶
アプリケーションタブから利用できるAIアプリビルダーは、DataRobotでモデルの構築とモデルパフォーマンスの評価を行う必要なしに、DataRobotコアサービス(予測、結果の最適化、シナリオのシミュレーションなど)を有効化するためのノーコードプラットフォームを提供します。
各アプリケーションは、テンプレートとデータソース(AIカタログのデプロイまたはデータセットのいずれか)で始まります。ただし、アプリビルダーでは、追加のウィジェット、カスタム特徴量、ページを設定して、特定のユースケースに合わせてアプリケーションを調整することができます。
デプロイしたアプリケーションは簡単に共有でき、ユーザーが完全なDataRobotライセンスを所有していなくても使用することができます。これにより、組織がDataRobotの機能を使用する能力を拡大する優れたソリューションが提供されます。
ウィジェット¶
アプリケーションは、視覚的でインタラクティブな目的駆動型のエンドユーザーアプリケーションを作成するウィジェットで構成されています。ウィジェットには、チャートウィジェットとヘッダーウィジェットの2種類があります。チャートウィジェットは、アプリケーションに視覚化を追加し、データと予測結果の重要なインサイトを明らかにするように設定できます。ヘッダーウィジェットは、アプリケーションの追加フィルタリングオプションを提供します。
What-IfとOptimizerウィジェット¶
What-ifとOptimizerウィジェットでは、予測結果を操作するための2つのツールを用意しています。
- What-if:最善の結果を提供するオプションを識別するために、複数の予測シミュレーションを作成して比較できる意思決定サポートツール。また、予測を作成した後、1つ以上の入力を変更して新しいシミュレーションを作成し、その変更がターゲット特徴量にどのように影響するかを確認できます。
- Optimizer:モデルの操作可能な特徴量の選択の値を変更することによって、ターゲットの予測の最大値または最小値を識別します。
多クラスプロジェクトのワードクラウドブループリント¶
多クラスプロジェクトでテキスト特徴量が 1 つでもある場合、すべての確率的勾配降下法(SGD)ブループリントがワードクラウドを作成するように改良されました。以前は特殊なSGDブループリントがあり、リポジトリから入手して手動で実行する必要がありました。この新しい視覚化には、モデルの[説明] > [ワードクラウド]タブ、または[インサイト] > [ワードクラウド]タブのいずれかからアクセスできます。
リポジトリで使用可能な新しいKeras DeepCTRモデル¶
CTRデータ(カーディナリティの高いカテゴリー)を使用するデータサイエンティストをサポートするため、DataRobotでは3つのDeepCTRモデルが導入されており、リポジトリから使用できます。これらのモデル(Neural Factorization Machine(NFM)、AutoInt、Deep Cross Network)は、特にクリック率やレコメンデーションモデルを構築する際に有効です。
バイアスと公平性の改善¶
このリリースでは、モデルのバイアスと公平性を計算する際のユーザー体験がアップグレードされました。1つ目の改善点として、モデリングを開始した後でも、バイアスと公平性のインサイトを有効化できるようになりました。 モデルを選択し、[バイアスと公平性] > [設定]に移動します。設定が完了したら、リーダーボードのすべてのモデルでバイアスと公平性のインサイトが有効になります。
2つ目の改善点は、 クラスごとのバイアスページで複数の公平性指標を表示できるようになったことです。この機能では、5つの公平性指標すべての公平性スコアをドロップダウンメニューで表示することができます。
詳細については、バイアスと公平性のドキュメントを参照してください。
ポータブル予測サーバーのTLSオプション¶
デフォルトでは、ポータブル予測サーバー(PPS)は :8080ポート(クリアテキストHTTP over TCP)上のセキュアでないリスナーを介して予測を提供します。今回、:8443ポートのセキュアなリスナー(HTTP over TLS/SSL、または単にHTTPS)を介して予測を提供できるようになりました。 セキュアなリスナーを有効にした場合、セキュアでないリスナーは使用できなくなります。この設定は環境変数を使用して実行されます。環境変数については、ドキュメントで付随する例を挙げて説明しています。
パブリックプレビュー機能¶
関係性エディターで特徴量セットを作成¶
特徴量探索の関係性エディターで特徴量セットを作成する機能が、パブリックプレビュー機能として利用できるようになりました。
特徴量セットを作成したら、関係性エディターで特徴量を直接変換できます。
多ラベルモデリングのさらなる機能強化¶
ユーザーからのフィードバックを受けて、多ラベルモデリングのパブリックプレビュー機能では、以下のようなユーザビリティの改良が導入されています。
- 多ラベルプロジェクトにおける特徴量ごとの作用の可視化機能を追加
- ラベルごとの指標の高速化
- 新しいラベルごとのワードクラウド
- ラベルを簡単に固定できる機能
- MLOpsのためのモデルパッケージとポータブル予測サーバーへのアクセス
外部モデルで使用できるインサイト¶
外部予測の[詳細オプション]タブから外部モデルをDataRobot AutoML環境に取り込み、リーダーボードに表示したり、DataRobotの評価インサイトのサブセットを実行してDataRobotモデルと比較したりすることができます。外部モデル予測をトレーニングデータセットの新しい列として追加し、予測とパーティション列を特定して、開始を選択します。外部モデルがリーダーボードで使用可能になり、DataRobotモデルとの比較や、選択したDataRobotビジュアライゼーションによる追加の調査、およびバイアステストの探索(二値分類プロジェクトの場合)を実行できるようになりました。
廃止の通知¶
備考:新しいリリース移行への適切な計画を立てるために、次の点に注意してください。
Hadoopのデプロイとスコアリングの使用非推奨¶
スタンドアロンスコアリングエンジン(SSE)を含むHadoopのデプロイとスコアリングは、リリースv7.3(クラウドユーザーは2021年12月13日)から使用できなくなり、完全に廃止されます(寿命終了)。廃止後は、Hadoopを使って予測を生成することはできません。
エンタープライズデータベースの統合の使用非推奨¶
エンタープライズデータベースの統合は、リリースv7.3(クラウドユーザーは2021年12月13日)から使用できなくなり、完全に廃止されます(寿命終了)。廃止後は、インテグレーションを使ってデプロイでの予測を生成することはできません。
オープンソースモデルの¶
オープンソースモデルは使用非推奨となりました。
お客様から報告された問題の修正¶
7.1.3以降のリリースでは以下の問題が解決されています。
プラットフォーム¶
- EP-1535:DockerベースのインストールでMinioがストレージとして使用される場合のマップタイル管理ワークフローの問題を修正しました。
- EP-1495:DataRobotのPythonを指すために、DataRobotスコアリングに
PYSPARK_PYTHON
およびPYSPARK_DRIVER_PYTHON
を設定しました。 - UIUX-2520:ページが更新された際のインサイトビューの問題を修正しました。
- UIUX-2518:ブループリントタスクの説明を修正しました。
- UIUX-2510:ビジネスモードのモデル情報ビューを修正しました。
- UIUX-1950:初級者モードでの列の追加/削除に関する問題を修正しました。
- UIUX-2146:各モデルのモデル情報タブにあるリソース使用状況のサマリーがデフォルトで非表示になりました。この情報を表示するには、ユーザーレベルのフラグを有効にします。
- UIUX-3207:混同行列で、行列データのロード時に問題が発生した場合、エラーメッセージが表示されるようになりました。
- UIUX-5113:スリム実行(スタックされた予測なし)で実行する多クラスプロジェクトの混同行列は、モデルが検定に至るまでトレーニングされると無効化されます。
時系列¶
- TIME-8176:新しい系列モデラーで予測の説明が計算に失敗する問題が修正されました。
- TIME-8425:バックテスト0がフィルタリング条件として指定されている場合に、異常評価レコードが適切にフィルタリングされるようになりました。
- TIME-8992:KIAの新しい系列モデラーのカスタム特徴量セットの問題が修正されました。
- TIME-9074:検定の実行に必要な最小行数が正しくないために、有効な予測ポイント範囲の計算でエラーが発生していた問題を修正しました。