AutoML(V7.0)¶
2021年3月15日
DataRobot v7.0.0のリリースでは、以下のように多くの新しいUIおよびAPI機能が追加されました。詳細については、時系列の新機能も参照してください。
DataRobotの有効期限切れが近い古い機能に関するサポート変更については、廃止に関する重要な告知を参照してください。
リリースv7.0.0では、以下の言語のUI文字列の翻訳が更新されています。
- 日本語
- フランス語
- スペイン語
機能のハイライト¶
リリース7.0の主な新機能には以下が含まれます。
一般提供:バイアスの検出および分析ツール¶
バイアスと公平性テスト(一般公開機能)は、二値分類モデルの公平性を計算し、モデルの予測動作のバイアスを特定する方法を提供します。
モデル構築の前に高度なオプション > バイアスと公平性を使用して、保護された特徴量を定義し、ユースケースに適した公平性指標を選択できます。選択の目安アンケートを使用すると、DataRobotで推奨される指標を参照できます。モデルが構築されると、バイアスと公平性のインサイトを活用して、モデルに含まれるバイアスを特定したり、モデルがトレーニングデータのどこからなぜバイアスを学習しているかといった根本原因分析の結果を視覚化することができます。
-
クラスごとのバイアスでは、各クラスの公平性しきい値と公平性スコアを使用して、モデルの予測動作時に特定のクラスでバイアスが発生しているかどうかが判断されます。
-
クラス間のデータの相違では、選択したクラスのモデルのバイアスの根本原因分析が実行されます。データの相違と特徴量の有用性チャートでは、バイアスに最も影響を与えている特徴量を特定できます。特徴量の詳細チャートは、特徴量内にバイアスが存在する場所を報告します。
-
クラス別の精度は、特定の保護された特徴量/クラスセグメントでのモデルのパフォーマンスとその動作を理解するのに役立ちます。
一般提供:精度を高めるトレーニング時間の画像オーグメンテーション¶
Visual Artificial Intelligence (AI)プロジェクトで利用できる機能のトレーニング時間のイメージオーグメンテーションでは、イメージデータセット(特に行数が少ないデータセット)の精度を高めることができます。通常、データが多いほど精度と一般化が向上しますが、データを簡単に取得するためのリソース(時間、費用、イメージの可用性、ラベル付けの専門知識など)がない場合があります。 画像オーグメンテーションを使用すると、変換を適用することにより、既存のイメージから新しい画像データを作成できます。
モデル構築の前に、高度なオプションからイメージ変換を作成できます。あるいは、モデルの構築が完了した後、リーダーボードの評価 > 高度なチューニングタブからイメージデータセットのチューニングに進むこともできます。新しい「画像オーグメンテーション」タスクはイメージのブループリントに表示されます。ベータ版のフィードバックに基づくオーグメンテーションの改善には、マルチモーダルプロジェクトのサポート、DataRobotが実行できるオーグメンテーションのサイズの増加、およびオーグメンテーション戦略をプレビューするためのUIの改善が含まれます。また、モデリング後のチューニングと新しいオーグメンテーションリストの作成は高度なチューニングに移動しました。
新機能と機能強化¶
特徴量探索の機能強化¶
特徴量探索の機能強化に関する以下の項目を参照してください:
- 集計されたカテゴリ特徴量のブループリントサポートの強化
- 集計されたカテゴリのインサイトでのストップワードのフィルター
- ベータ:利用可能になった教師なしプロジェクトの特徴量探索
- ベータ:特徴量探索のデプロイでのセカンダリーデータセットを管理するためのガバナンスワークフローのサポート)
- ベータ:特徴量探索で利用可能になった動的データセットでのSpark SQLクエリーのサポート
その他の新機能¶
以下のその他の新機能の詳細を参照してください。
- 予測しきい値のUXアップグレード
- 追加のスコアリングコードモデルへのアクセス
- 開発者ツールのページからアクセス可能になったRおよびPythonクライアント
- 多クラスにおける特徴量のインパクトでのカスタムサンプルサイズのサポート
- ベータ:多ラベル分類機能による分類オプションの拡張
- ベータ:新しいTiny BERTの事前トレーニング済みフィーチャライザーの実装によるNLPの拡張
- ベータ:Kerasモデルに対するスコアリングコードのサポート
新しい特徴量探索機能¶
集計されたカテゴリ特徴量のブループリントサポートの増加により、精度とリーダーボードの多様性が向上します¶
集計されたカテゴリ型特徴量は、複数のカテゴリ値を持つ特徴量に使用されます(同一製品のカテゴリーまたは部門ごとの数量など)。この型の特徴量が元のデータセットにない場合、DataRobotは特徴量探索プロセスの一部として(セカンダリーデータセットから)作成されます。このリリースでは、DataRobotはこの型の特徴量のサポートをブループリントの幅広い選択肢に追加し、オートパイロット中に実行されるモデルの数を増やします。この追加の影響は、セカンダリーデータセットを持つ特徴量探索プロジェクトで特に顕著です。
集計されたカテゴリのインサイトでのストップワードのフィルター¶
このリリースでは、集計されたカテゴリ特徴量のインサイトのシングルトークンテキストについて、オンデマンド(カテゴリクラウド)とデフォルト(ヒストグラム)でストップワードが除外されるようになりました。ストップワード(よく使用される用語のうち検索対象から除外できる用語)がモデルに有用でない場合、それらのワードが除外されることにより、解釈性が向上します。フィルターすることで有用なノンストップワードに集中し、データをより理解できるようになります。
ベータ:利用可能になった教師なしプロジェクトの特徴量探索¶
以前は、特徴量探索は教師なし学習プロジェクトはサポートされていませんでした。「ターゲットなし」を選択した場合、プロジェクトの開始時にオプションが表示されていましたが、特徴量探索設定を構成しようとすると、UIからエラーメッセージが返されていました。ベータ機能。教師なしモードの設定、セカンダリーデータセットの追加、関係性の定義を行って、プロジェクトを開始できます。DataRobotは、監視ありプロジェクトの場合と同様にセカンダリー特徴量を生成しますが、教師あり特徴量の削減(ターゲットが必要)は廃止されます。
ベータ:特徴量探索のデプロイでは、セカンダリーデータセットを管理するガバナンスワークフローがサポートされています(MLOpsが必要)¶
このリリースでは、ガバナンスワークフローを使用して、特徴量探索のデプロイのセカンダリーデータセットに対する更新を管理できます。管理者が「セカンダリーデータセット設定の変更」承認ポリシートリガーをユーザー設定 > 承認ポリシーで設定した後にセカンダリーデータセットに変更を加えようとすると、承認プロセスが必要な変更リクエストのプロンプトが表示されます。変更リクエストの作成者は、そのステータスを履歴(デプロイ > 概要内)に表示でき、レビュー担当者には、保留中の変更のレビューを要求する通知が表示されます。
ベータ:特徴量探索セカンダリーデータセットで、動的データセットでのSpark SQLクエリーのサポートを利用できるようになりました¶
DataRobotは、AIカタログ内からSpark SQLクエリーを使用して、スナップショット(静的)データセットを強化、変換、整形、およびアンサンブルする機能を提供します。この新機能により、特徴量探索プロジェクトのセカンダリーデータセットで動的Spark SQLのサポートが追加されています。ベータ機能(「動的Spark SQLの特徴量探索サポートを有効にする」)として有効にすると、この新機能により、基本的なデータ準備を実行する際の柔軟性が向上します。認証要件は同じままです。
その他の新機能¶
予測しきい値のUXアップグレード¶
このリリースでは、リーダーボードに予測しきい値を設定するためのユーザー体験がアップグレードされました。第一に、ROC曲線、収益曲線、予測の作成およびデプロイタブのコンポーネントアップグレードしておくと、推奨される予測しきい値の割り当てまたは選択が簡単になっています。第二に、ROC曲線と収益曲線タブの表示しきい値と予測しきい値との間に便利なワンクリックコピーを利用できるようになっています。そして最後に、選択した予測しきい値が、モデル内のすべてのタブとモデルのダウンロード(モデルパッケージ(.mlpkg)ファイルなど)の間で同期されるようになっています。
追加のスコアリングコードモデルへのアクセス¶
7.0では、スコアリングコード範囲が拡張されています。次のモデルは、スコアリングコードを含むように書き直されました。
開発者ツールのページからアクセス可能になったRおよびPythonクライアント¶
このリリースの新機能の開発者ツールで、開発者向けドキュメントへのクイックリンクを提供するようになりました。以下のリンクが含まれています。
- 現在のREST API、PythonクライアントAPI、およびRクライアントAPIのドキュメント。
- 開発者ポータル。
- Githubコミュニティのリポジトリ。
多クラスにおける特徴量のインパクトでのカスタムサンプルサイズのサポート¶
多クラスプロジェクトがカスタムサンプルサイズを使用して、特徴量のインパクトを計算できるようになりました。特徴量のインパクトの結果の不整合に対処し、それらの結果をはるかに一貫した方法で再現することで、モデル検定プロセス中の摩擦を軽減します。
ベータ:多ラベル分類機能による分類オプションの拡張¶
多ラベルモデリング(パブリックベータ機能)は、各データインスタンス(データセット内の行)とラベルとの関連付け(関連付けなし、ラベル1つまたは複数)を行う一種の分類タスクです。一般的な用途としては、トピックのリスト(食品、ボストン、イタリアン)を含むテキスト型特徴量や、オブジェクトのリストを含む画像(1匹の猫、2匹の犬、1頭のクマ)などがあります。行の_ラベルセット_は、その行のすべてのラベルで作成されます。多ラベル分類では、新しい観測値が指定されるとラベルセットが予測されます。多クラスモデリングと似ていますが、多ラベルモデリングは高い柔軟性が提供されます。
データ型 | 説明 | ターゲットとして許可しますか? | プロジェクトタイプ |
---|---|---|---|
カテゴリー | 1行に単一のカテゴリー、相互排他的 | 可 | 多クラス |
多カテゴリー | 1行に複数のカテゴリー、非排他的 | 可 | 多ラベル |
集計されたカテゴリー型特徴量 | 1行に複数のカテゴリー、各カテゴリの複数のインスタンスを許可 | いいえ | 重回帰(未提供) |
ベータ:新しいTiny BERTの事前トレーニング済みフィーチャライザーの実装によるNLPの拡張(ファインチューニング不要)¶
BERT(Transformersからの双方向エンコーダー表現)は、自然言語処理(NLP)転移学習に関するトランスフォーマーに基づくGoogleのデファクトスタンダードです。Tiny BERT(または、蒸留して軽量化した任意のBERTバージョン)が、DataRobotリポジトリの特定のブループリントで利用できるようになりました。これらのブループリントは、Visual Artificial Intelligence (AI)フィーチャライザーと同様に、NLPフィールドで事前にトレーニングされた特徴量抽出を提供します。ただし、最大限の柔軟性を実現するために、DataRobotの実装には2つの調整可能な追加のプーリングパラメーター(最大プーリングと平均プーリング)が用意されています。Tiny BERTブループリントは、UIユーザーとAPIユーザーの両方が利用できます。
ベータ:Kerasモデルに対するスコアリングコードのサポート¶
現在、一般公開されているKerasモデルはスコアリングコードを含むように再記述されています。
APIの強化¶
以下は、APIの機能強化のサマリーです。詳細および修正された問題については、変更ログを参照してください。各クライアントのAPIドキュメント用のAPIサポートページを参照してください。
新機能¶
-
データストアおよびデータソースに対する許可および禁止された操作のリストが、新しいルーティングで提供されるようになりました。
-
GET /api/v2/externalDataSources/
ルートの応答に新しいフィールドcanDelete
が追加されました。表示可能なすべてのデータソースが一覧表示されます。
機能強化¶
-
カスタム単調制約を使用してモデルを再トレーニングできます。
-
交差検定を使用してモデルを再トレーニングできます。
-
特微量セットを指定せずにPOST /api/v2/projects/\(projectId\)/datetimeModels/を使用して日時モデルを作成すると、指定したブループリントに推奨特微量セットが使用されます。推奨特微量セットがない場合は、代わりにプロジェクトのデフォルト特微量セットが使用されます。
-
新しい文字列フィールドパラメーター
unsupervisedType
が2つのエンドポイントに追加されました。プロジェクトが教師なしモードで実行されているときに、教師なしプロジェクトのタイプを異常またはクラスター化に設定できます。 -
新しいフィールド
canUseDatasetData
が追加されました。ダウンロードやプロジェクト作成、カスタムモデルのトレーニング、予測の提供にユーザーがデータセットデータを使用可能かどうかを示します。
ヒント
PythonおよびRの最新のAPIクライアントに更新することが強く推奨されます。
廃止の通知¶
使用非推奨スケールアウトモデル¶
スケールアウトモデルは将来のリリースで使用非推奨となる予定であるため、新しいモデルのトレーニングには使用しないでください。
ユーザーからの報告でv7.0.0で修正された問題¶
リリース6.3.4では以下の問題が解決されています。
プラットフォーム¶
-
DM-4525:UI言語が英語以外に設定されている時、「資格情報管理」ページのデータ接続が正しくリストされるようになりました。
-
DM-4637:新しい構成設定
KERBEROS_PEM_ENABLE
が追加され、True
に設定すると、kinit
コマンドががキータブを使用するのではなく、PKINIT
事前認証を使用してサービスチケットを使用できるようになりました。 -
DM-4696:次の変数が変更されました。
AZURE_BLOB_STORAGE_CHUNK_SIZE
環境変数は設定可能です(デフォルトは99MB)。AZURE_BLOB_STORAGE_TIMEOUT
環境変数は設定可能です(デフォルトは20秒)。
- EP-506:インデックスの作成/更新中のデータベースタイムアウトの問題が修正されました。
プラットフォーム¶
- EP-750:外部ディレクトリサービスを使用するシステムで、一部のDataRobotコンテナが
datarobot_user
ユーザーを解決できなかった問題が修正されています。この変更によりos_configuration.remote_user_credentials
パラメーターが導入され、true
に設定されている場合、外部ディレクトリサービスの資格情報がDataRobotコンテナにマッピングされます。 -
EP-795:サードパーティ製ツールで、RabbitMQの管理インターフェイスに追加のヘッダーを含めることができるようになりました。
-
PLT-3052:名前に特殊記号を含むグループのLDAPグループマッピングが修正されました。
モデリング¶
- MODEL-5033:ワンホットエンコーディングの数値を使用する特定のKerasリポジトリブループリントが変更され、ワンホットエンコーディングの前にNDCが実行されるようになりました。この修正により、モデリングAPIとバッチAPI間の予測の一貫性が保証されます。