AutoML(V7.3)¶
2021年12月13日
DataRobot v7.3.0リリースには、このセクションで説明する多くの新しいAutoML機能と機能強化が含まれています。時系列(AutoTS)およびMLOpsのリリースノートで説明されている新機能も参照してください。
リリースv7.3では、以下の言語のUI文字列の翻訳が更新されています。
- 日本語
- フランス語
- スペイン語
- 韓国語
有効期限切れが近い機能や古い機能に関するDataRobotのサポート変更については、廃止に関する重要な告知を参照してください。このドキュメントには、DataRobotの修正された問題が記載されています。
機能のハイライト¶
リリース7.3の主な新機能には以下が含まれます。
ユーザーインターフェースの機能強化¶
XEMP予測の説明のインターフェイスを一新¶
このリリースでは、モデルが特定の予測をした理由について、より明確に一目で理解できるようにXEMP予測の説明の可視化が再設計されました。この機能は、より簡単かつ直観的なインターフェイスで同じインサイトを提供します。
特徴量探索機能¶
特徴量探索で複数の派生ウィンドウをサポート¶
自動特徴量探索では、データセットあたり最大3つの派生ウィンドウ(FDW)を設定できるようになりました。追加ウィンドウを定義するには、時間認識特徴量エンジニアリングエディターを開き、追加ウィンドウをクリックします。各FDWは一意である必要があります。
詳細については、関係性の定義を参照してください。
特徴量探索の関係性の品質評価¶
このリリースでベータ機能として導入された特徴量探索は、関係性設定の品質を自動的に評価するツールが導入されていて、作成プロセスの早い段階で潜在的な問題がユーザーに警告されます。関係性品質評価ツールは、EDA2の開始前に結合キー、データセットの選択、および時間認識設定を検証します。
設定を確認ボタンをクリックして、関係性の品質評価をトリガーします。各データセットと、無効になっている[設定を確認]ボタンには、進行状況を示すインジケーター(ローディングスピナー)が表示され、評価が現在実行中であることを示します。
評価が完了すると、DataRobotはテストされたすべてのデータセットにマークを付けます。問題が特定されたものには黄色の警告アイコンが表示され、問題が特定されていないものには緑色のチェックマークが表示されます。データセットを選択して、提案された潜在的な修正を含む問題のサマリーを表示します。
警告を解決するには、各警告の下に表示されるオレンジのリンク(データセットの確認、関係性の確認、またはウィンドウ設定の確認)をクリックします。関係性エディターの上部にペインが表示され、関係性設定を変更できます。警告を処理した後、設定を確認をクリックして、関係性を再評価します。
詳細については、関係性品質評価のドキュメントを参照してください。
特徴量探索の機能向上¶
リリース7.3では、特徴量探索UIが以下のように改善されます。
- 関係性エディターでは、プライマリーデータセットがセカンダリーデータセットとしても使用される場合、ターゲットは提案される結合キーとして表示されなくなりました。
- セカンダリーデータセット設定を変更する場合、すべてのデータセット名を再ロードしなくなりました。
- 個々のデータセットインポートサイズは11GBを超えることはできません。
- JDBCデータセットを含むすべてのスナップショットが取得されたデータセットのデフォルトスナップショットポリシーは最新です。
- データセットに表示されるFDWをクリックして、FDWエディターを開くことができるようになりました。
モデリング機能¶
Composable MLにプロジェクトのリンク作成と一括トレーニングを追加、および全体的に改善¶
Composable MLは、モデル構築に完全柔軟性のアプローチを提供し、データサイエンスと主題の専門知識を構築することができます。Composable MLでは、ビルトインタスクとカスタムPython/Rコードを使用して、ニーズに最適なブループリントを構築します。次に、DataRobot機能(例えばMLOpsなど)をカスタムブループリントと併用して、生産性を高めることができます。
リリース7.3では、より早く利用できる特徴量プレビュー機能に加えて、重要な改善が含まれています。
-
プロジェクトリンク:ブループリントの中には、特定のプロジェクトでのみ使用されるものがあるため(たとえば、特定の特徴量を必要とするステップが組み込まれている場合など)、DataRobotはプロジェクトの自動リンクを適用します。別のプロジェクトにブループリントを適用しようとすると、DataRobotは、必要な列がデータセットに存在しないことを警告します。
-
一括トレーニング:選択したブループリントとの互換性に基づいて、特定のプロジェクトでユーザーブループリントを一括でトレーニングできるようになりました。(選択したブループリントに共通したターゲットタイプが1つもない場合、DataRobotは、一括トレーニングを行いません。)AIカタログのブループリントタブでは、ターゲットのタイプ(二値、連続値、多クラス、教師なし)ごとにブループリントをソートして、選択しやすくすることができます。
この機能は、マネージドAIクラウドのユーザーには一般提供され、オンプレミスのユーザーにはプライベートプレビュー機能として提供されています(機能の有効化については、DataRobotの担当者にお問い合わせください)。
マネージドAIクラウドユーザー向けの詳細。
すべての線形モデルに対応するワードクラウド¶
ワードクラウドは、以前は単一のモデルとモードタイプに対してのみ使用可能でしたが、現在、さまざまな二値分類、多クラス、および連続値モデルをサポートしています。また、ワードクラウドはマルチモーダルデータセット(画像、テキスト、カテゴリーなどを混ぜたデータセット)にも利用できるようになりました。データからのすべてのテキストにワードクラウドが表示されます。
詳細については、ワードクラウドのドキュメントを参照してください。
クラスタリング¶
教師なし学習の応用であるクラスタリングによって、自然セグメントをグループ化して識別することでデータを探索できます。クラスタリングを使用して、多くの種類のデータ(数値、カテゴリー、テキスト、画像、および地理空間データ)を生成されたクラスターを単独でまたは組み合わせて探索します。クラスタリングモードでは、DataRobotは、データセットの列で明示的にキャプチャされていない潜在動作をキャプチャします。
クラスターを生成するには、教師なしクラスターモードで実行します。
モデリング中に生成されたクラスターを調査するには、クラスターインサイトビジュアライゼーションを使用して、データセット内の各クラスターを理解して、名前を付け、説明します。
詳細については、クラスタリングのドキュメントを参照してください。
外部予測を一般提供¶
v7.2のパブリックプレビュー機能としてリリースされた外部予測機能によって、DataRobot AutoML環境に外部モデルを導入してDataRobotモデルと比較できます。トレーニングデータセット列に外部予測を追加し、予測とパーティション列を識別するだけです。モデリングが完了すると、外部モデルをリーダーボード上で利用できます。そこから、DataRobotモデルと比較して、選択DataRobot二値分類を使用してさらに調査し、(二値分類プロジェクトの場合)バイアステストを探索できます。
さらに、パブリックプレビュー機能として、複数(最大25個)の予測列がサポートされるようになりました。各列は別々の「外部モデル」にマッピングされます。
多クラスプロジェクトでの特徴量ごとの作用¶
このリリースでは、特徴量ごとの作用ビジュアライゼーションは多クラスプロジェクトに利用できるようになりました。さらに、クラスを選択ドロップダウンを使用して、ターゲット値の各クラスの部分依存、予測、および実測値を表示できます。デフォルトでは、インパクトが大きい上位10個の特徴量で作用が計算されますが、この新機能には、すべての特徴量について、個別に計算できるオプションが用意されています。
詳細については、特徴量ごとの作用を参照してください。
SHAP特徴量のインパクトの設定可能なサンプルサイズ¶
このリリースでは、SHAPベースのプロジェクトで特徴量のインパクトの計算に使用されるサンプルサイズを設定できるようになりました。以前は、この機能はpermutationベースの特徴量のインパクトにしか使用できませんでした。サイズ変更は、たとえば、ほぼ同じ精度でSHAP特徴量のインパクトを迅速に計算する上で役立ちます。
詳細については、特徴量のインパクトに関するドキュメントをご参照ください。
無制限の多クラスにより、任意の数のクラスを持つターゲットに多クラス分類器を構築¶
本機能の提供について
多クラスプロジェクトで無制限のクラスを利用できるかどうかは、お客様の料金プランによります。お客様の組織で有効になっていない場合、クラス制限は100に設定されています。この制限を増やすには、DataRobotの担当者にお問い合わせください。
このリリースでは、多クラスプロジェクトタイプが拡張され、無制限の多クラスオプションが追加されます。1000個以上のクラスがある多クラスプロジェクトの場合、DataRobotは、デフォルトでは、頻度上位999位のクラスを維持し、残りの部分を単一の「他の」バケットに集計します。または、プロジェクトに必要なすべてのクラスを表現するために、集計パラメーターを設定できます。さらに、多クラスビジュアライゼーションはより大きいクラス表示に合わせて調整されます。無制限の多クラスによって、クラス制限に合わせてデータを準備し、いくつかのモデルを維持する必要がなくなりました。単一のモデルをデプロイして、予測を提供できるクラスの数に制限がなくなりました。
詳細については、多クラスのドキュメントをご参照ください。
多ラベルモデリングではペアワイズマトリックス管理が追加されました¶
本機能の提供について
多ラベルモデリングの提供は料金プランに依存します。組織で有効化されていない場合は、詳細についてはDataRobotの担当者に連絡してください。
多ラベルモデリング(各行が1つまたは複数のラベルに関連付けられている場合またはラベルに関連付けられていない場合のモデリング)が通常使用可能になりました。また、ペアワイズマトリックスをより簡単に制御できる機能が追加されました。ラベルのペアのペアワイズ統計とデータセットにおける各ラベルの出現率を表示するマトリックスに、サムネイルマトリックスを採用し、メインマトリックスの表示をより簡単に設定できるようになりました。サムネイルからエリアを選択したり、手動で行や列を設定したりすることで、メインマトリックスが目的のラベルにフォーカスされます。
データが有効であることを確認するため、データ品質評価チェックは、多カテゴリー特徴量の要件に対してデータ品質評価をチェックするようになりました。ログは、より詳細なエラー情報を提供します。
詳細については、多ラベルのドキュメントを参照してください。
APIの強化¶
以下は、APIの新しい機能と強化のサマリーです。各クライアントの詳細についてはAPIドキュメントホームを参照してください。
ヒント
PythonおよびRの最新のAPIクライアントに更新することが強く推奨されます。
新機能¶
APIリリースv2.27.0に以下の新機能が追加されました。
- 時系列プロジェクトで破棄された特徴量を取得し、復元します。
多クラスモデルでの特徴量ごとの作用の計算および取得¶
- 非日付/時刻パーティションモデルの場合:
- 取得
GET /api/v2/projects/(projectId)/models/(modelId)/multiclassFeatureEffects/
- 計算
POST /api/v2/projects/(projectId)/models/(modelId)/multiclassFeatureEffects/
- 計算
- 取得
- 日付/時刻パーティションモデルの場合:
- 取得
GET /api/v2/projects/(projectId)/datetimeModels/(modelId)/multiclassFeatureEffects/
- 計算
POST /api/v2/projects/(projectId)/datetimeModels/(modelId)/multiclassFeatureEffects/
- 取得
カスタムモデルの変換機能¶
- 作成
POST /api/v2/customModels/(customModelId)/versions/(customModelVersionId)/conversions/
- リスト
GET /api/v2/customModels/(customModelId)/versions/(customModelVersionId)/conversions/
- 取得
GET /api/v2/customModels/(customModelId)/versions/(customModelVersionId)/conversions/(conversionId)/
- 削除
GET /api/v2/customModels/(customModelId)/versions/(customModelVersionId)/conversions/(conversionId)/
機能強化¶
すべての非多クラスfeatureEffects
およびfeatureFit
取得ルートは、individual_conditional_expectation
(ICE)プロット、新しいクエリパラメーター、include_ice_plots
をサポートしており、この機能を制御します。この機能にアクセスするには、機能フラグEnable ICE Plots on Feature Fit/Feature Effects
を有効化します。
以下のルートが含まれます。
GET /api/v2/projects/(projectId)/models/(modelId)/featureEffects/
GET /api/v2/projects/(projectId)/datetimeModels/(modelId)/featureEffects/
GET /api/v2/projects/(projectId)/models/(modelId)/featureFit/
GET /api/v2/projects/(projectId)/datetimeModels/(modelId)/featureFit/
カスタムモデルのコンプライアンスドキュメントを生成するために必要なコンプライアンスドキュメントの事前処理を初期化する新しいルートがあります。
コンプライアンスドキュメントの前処理の初期化を作成する:POST /api/v2/modelComplianceDocsInitializations/(entityId)/
コンプライアンスドキュメントの前処理の初期化をチェックする:GET /api/v2/modelComplianceDocsInitializations/(entityId)/
マルチラベル分類プロジェクトタイプをサポートする新しいルートが追加されました。
多ラベルペアワイズ統計を取得する:
GET /api/v2/multilabelInsights/(multilabelInsightsKey)/pairwiseStatistics/
多ラベルヒストグラムを取得する:
GET /api/v2/multilabelInsights/(multilabelInsightsKey)/histogram/
多ラベルのラベルごとのROCを取得する:
GET /api/v2/projects/(projectId)/models/(modelId)/labelwiseRocCurves/(source)/
多ラベルのラベルごとのリフトチャートを取得する:
GET /api/v2/projects/(projectId)/models/(modelId)/multilabelLiftCharts/(source)/
多ラベルペアワイズ統計の手動ラベルの選択を取得する:
GET /api/v2/multilabelInsights/(multilabelInsightsKey)/pairwiseManualSelections/
多ラベルペアワイズ統計の手動ラベルの選択を保存する:
POST /api/v2/multilabelInsights/(multilabelInsightsKey)/pairwiseManualSelections/
多ラベルペアワイズ統計の手動ラベル選択を更新する:
PATCH /api/v2/multilabelInsights/(multilabelInsightsKey)/pairwiseManualSelections/(manualSelectionListId)/
多ラベルペアワイズ統計の手動ラベルの選択を削除する:
DELETE /api/v2/multilabelInsights/(multilabelInsightsKey)/pairwiseManualSelections/(manualSelectionListId)/
パブリックプレビュー機能¶
外部OAuthを使用してSnowflakeに接続する¶
Snowflakeユーザーは、OAuthシングルサインオン(SSO)を通したユーザー認証に外部IDプロバイダー(IdP)(OktaまたはAzure Active Directory)を使用して、DataRobotでSnowflakeデータ接続を設定できるようになりました。
詳細については、Snowflakeの外部OAuthを参照してください。
AIカタログでの高速登録¶
大規模なデータセットをAIカタログにすばやく登録できるようになりました。データセット全体ではなく、登録に使用する最初のN行を指定することで、テストや特徴量探索に使用するデータにすばやくアクセスできます。
AIカタログで、カタログに追加をクリックし、データソースを選択します。高速登録は、新しいデータ接続、既存のデータ接続、またはURLからデータセットを追加する場合にのみ使用できます。データソースの情報を入力し、スナップショットポリシーを選択します。
- スナップショットデータセットの場合、DataRobotは指定された数の最初の行を取込みます。以降のデータの使用(プロジェクトの作成など)はN行を含むこのデータセットを使用します。
- 動的データセットの場合、DataRobotは指定された数の最初のN行を使用し、EDA1を計算します。しかし、以降のデータの使用は必ず完全なデータセットを使用します。
高速登録では、部分的なデータアップロードオプションを選択し、取込む行の数を指定します。
詳細については、AIカタログ高速登録を参照してください。
廃止の通知¶
新しいリリース移行への適切な計画を立てるために、次の点に注意してください。
カスタムモデルのローカルフォルダーオプションは使用非推奨です¶
リリースv8.0(クラウドユーザー向けは2022年3月14日)では、デプロイインベントリを介してモデルを追加する場合に「ローカルフォルダー」オプションを使用する機能は使用非推奨になります。このリリースでは、まだ使用可能ですが、カスタムモデルワークショップを使用する方法が推奨されます。v8.0では、使用できるのはワークショップオプションのみです(インベントリページからリンクされます)。
APIに関する使用非推奨の通知¶
新しいリリース移行への適切な計画を立てるために、次の点に注意してください。
-
破棄された特徴量情報を取得する:
GET /api/v2/projects/(projectId)/discardedFeatures/
-
破棄された特徴量のリストを復元する:
POST /api/v2/projects/(projectId)/modelingFeatures/fromDiscardedFeatures/
お客様から報告された問題の修正¶
リリース7.2.6では以下の問題が解決されています。
特徴量探索¶
- SAFER-4115:BigQuery OAuth資格情報が特徴量探索プロジェクトで機能しない問題が修正されました。