データ、モデリング、アプリ(V9.1)¶
2023年7月31日
DataRobot v9.1.0リリースには、以下で説明するように、データ、モデリング、アプリ、管理に関する多くの新機能と機能強化が含まれています。 リリース9.1のその他の詳細については、MLOpsおよびコードファーストに関するリリースのお知らせをご覧ください。
注目の新機能¶
Text AIの基本モデル¶
このデプロイでは、Text AIの基本モデルが一般提供されました。 基本モデル(膨大な量のラベルなしデータで大規模にトレーニングされた大きなAIモデル)は、高い精度と多様性を提供し、事前にトレーニングされた大規模なディープラーニング手法をText AIに活用することができます。
DataRobotはすでにTinyBERTのようないくつかの基本モデルを実装していますが、これらのモデルは単語レベルで動作するため、追加の計算が発生します(テキスト行の変換には、各トークンの埋め込みを計算し、そのベクトルを平均化する必要があります)。 これらの新しいモデル(英語用のSentence Robertaと多言語ユースケース用のMiniLM)は、幅広い下流タスクに適応させることができます。 これら2つの基本モデルは、リポジトリ内の構築済みブループリントで利用可能です。または、これらの基本モデルを活用して精度を向上させることを目的として、カスタマイズされた(埋め込まれた)任意のブループリントに追加することもできます。
新しいブループリントは、リポジトリで入手できます。
ワークベンチの一般提供を開始¶
今月のデプロイでは、DataRobotのエクスペリメントプラットフォームであるワークベンチが、プレビューから一般提供に移行しました。 ワークベンチは、直感的に操作できる、ガイド付きの機械学習ワークフローを提供して、エクスペリメントと反復作業を支援し、スムーズなコラボレーション環境を実現します。 今月は、ワークベンチが一般提供されただけでなく、新たなプレビュー機能が導入されました。
ワークベンチとDataRobot Classicで利用可能な機能の最新の比較については、 機能マトリックスを参照してください。
リリースv9.1では、以下の言語のUI文字列の翻訳が更新されています。
- 日本語
- フランス語
- スペイン語
- 韓国語
目的別にグループ化された機能
期限切れの古い機能に対するサポートの変更については、サポート終了に関する重要なお知らせをご覧ください。 このドキュメントでは、DataRobotの修正された問題についても説明します。
データの強化¶
一般提供¶
セキュアな構成の共有¶
IT管理者は、データ接続にOAuthベースの認証パラメーターを設定し、機微情報に関するフィールドを公開することなく、他のユーザーと安全に共有できるようになりました。 これにより、ユーザーは、データ接続パラメーターについてIT部門に連絡することなく、データウェアハウスに簡単に接続できます。
詳しくは、完全なドキュメントをご覧ください。
AIカタログへの高速登録¶
パブリックプレビュー版の機能です。データセット全体ではなく、登録に使用する最初のN行を指定することで、大規模なデータセットをAIカタログにすばやく登録できます。これにより、テストや特徴量探索に使用するデータをより早く入手することができます。
AI Catalogで、 カタログに追加をクリックしてデータソースを選択します。 高速登録は、新しいデータ接続、既存のデータ接続、またはURLからデータセットを追加する場合にのみ使用できます。
詳細については、高速登録の設定を参照してください。
プレビュー¶
ワークベンチのデータラングリング機能に新しい操作を追加¶
このリリースでは、ワークベンチでのDataRobotのラングリング機能に3つの新しい操作が追加されました。
-
重複行の排除:すべての重複行を、データセットから自動的に削除します。
-
特徴量名を変更する:データセット内の1つ以上の特徴量の名前を、すばやく変更します。
-
特徴量の削除:データセットから1つまたは複数の特徴量を削除します。
新規および既存の操作にアクセスするには、Snowflakeからワークベンチのユースケースにデータを登録し、ラングリングをクリックします。 レシピをパブリッシュすると、その操作がSnowflakeのソースデータに適用され、出力データセットがマテリアライズされます。
必要な機能フラグ:フラグは不要です
プレビュー機能であるワークベンチのドキュメントをご覧ください。
データ接続参照の改善¶
このリリースでは、ワークベンチにおいてデータ接続の参照が改善されました。
-
設定中にSnowflakeデータベースが指定されていない場合は、設定保存した後に、データベースを参照して選択できます。 それ以外の場合は、スキーマリストビューに直接移動します。
-
Snowflakeでデータベース、スキーマ、およびテーブルを参照するときの結果の表示にかかる時間を、DataRobotが短縮しました。
ラングリングプレビューの改善¶
このリリースでは、ワークベンチでのデータラングリングに関する以下の複数の改善が含まれます。
-
ラングリングレシピに、 操作の並び替えをご紹介
-
操作の追加でエラーが発生した場合は、新規元に戻すボタンで変更を元に戻せます。
-
ライブプレビューに、最大1000列までシームレスにブラウジングできる無限のスクロール機能を追加
スマートダウンサンプリングを使用したレシピのパブリッシュ¶
ワークベンチでラングリングレシピをパブリッシュする際には、スマートダウンサンプリングを使用して、出力データセットのサイズを縮小し、モデルのトレーニングを最適化します。 スマートダウンサンプリングは、精度を犠牲にすることなく、モデルの適合にかかる時間を短縮するデータサイエンス技術です。 このダウンサンプリング手法は、クラスごとにサンプルを階層化することにより、クラスの不均衡を考慮します。 ほとんどの場合、マイノリティークラス全体が保存され、サンプリングはマジョリティークラスにのみ適用されます。 これは、特に不均衡なデータに役立ちます。 一般に、マイノリティークラスでは精度が重視されるので、この手法はトレーニングデータセットのサイズを大幅に削減します。 これにより、モデルの精度を維持しながらモデリングの時間とコストを削減できます。
機能フラグ:ラングリングのパブリッシュ設定でスマートダウンサンプリングを有効にする
ラングリングされたデータセットをSnowflakeでマテリアライズ¶
ラングリングレシピをパブリッシュして、DataRobotのデータレジストリまたはSnowflakeでデータをマテリアライズできるようになりました。 ラングリングレシピをパブリッシュすると、操作がSnowflakeの仮想ウェアハウスにプッシュダウンされ、Snowflakeのセキュリティ、コンプライアンス、財務管理を活用できるようになります。 デフォルトでは、出力データセットはDataRobotのデータレジストリでマテリアライズされます。 書き込みアクセス権があるSnowflakeデータベースとスキーマで、ラングリングされたデータセットをマテリアライズできるようになりました。
プレビュー機能のドキュメントをご覧ください。
機能フラグ: ワークベンチでSnowflakeのソース内マテリアライズを有効にする、ワークベンチで動的データセットを有効にする
ワークベンチにBigQueryのサポートを追加¶
Google BigQueryのサポートがワークベンチに追加され、以下のことが可能になります。
- データ接続を作成して設定する。
- BigQueryデータセットをユースケースに追加。
- BigQueryのデータセットをラングリングし、BigQueryにレシピをパブリッシュして、データレジストリで出力をマテリアライズ。
機能フラグ: ネイティブBigQueryドライバーを有効にする
BigQueryとの接続の強化¶
新しいBigQueryコネクターがプレビューで利用可能になりました。パフォーマンスと互換性が強化され、サービスアカウントの資格情報を使用した認証にも対応しています。
プレビュー機能のドキュメントをご覧ください。
機能フラグ: ネイティブBigQueryドライバーを有効にする
ワークベンチでのデータ準備の改善¶
このリリースでは、ワークベンチでのデータ準備にいくつかの改善が加えられています。
ワークベンチで _動的データセット_がサポートされるようになりました。
- データ接続を介して追加されたデータセットは、データレジストリとユースケースに動的データセットとして登録されます。
- 接続を介して追加された動的データセットは、データレジストリで選択できます。
- DataRobotは、動的データセットの探索的データインサイトを表示するときに、新しいライブサンプルを取得します。
機能フラグ: ワークベンチで動的データセットを有効にする
Snowflakeのキーペア認証¶
プレビュー版の機能です。基本認証の代わりに、キーペア認証方式(Snowflakeのユーザー名と秘密キー)を使用して、DataRobot ClassicとワークベンチでSnowflakeデータ接続を作成できます。
必要な機能フラグ:Snowflakeのキーペア認証を有効にする
ワークベンチでデータの結合と集計を実行¶
結合および集計操作をワークベンチのラングリングレシピに追加できるようになりました。 結合操作を使用すると、同じ接続インスタンスからアクセスできるデータセットを組み合わせることができます。集計操作を使用すると、合計、平均、カウント、最小値/最大値、標準偏差、推定などの集計関数に加えて、いくつかの非数学的操作をデータセット内の特徴量に適用できます。
プレビュー機能のドキュメントをご覧ください。
機能フラグ: 追加のラングラー操作を有効にする
モデリング特徴量¶
一般提供¶
Text AIの基本モデル¶
このデプロイでは、Text AIの基本モデルが一般提供されました。 基本モデル(膨大な量のラベルなしデータで大規模にトレーニングされた大きなAIモデル)は、高い精度と多様性を提供し、事前にトレーニングされた大規模なディープラーニング手法をText AIに活用することができます。
DataRobotはすでにTinyBERTのようないくつかの基本モデルを実装していますが、これらのモデルは単語レベルで動作するため、追加の計算が発生します(テキスト行の変換には、各トークンの埋め込みを計算し、そのベクトルを平均化する必要があります)。 これらの新しいモデル(英語用のSentence Robertaと多言語ユースケース用のMiniLM)は、幅広い下流タスクに適応させることができます。 これら2つの基本モデルは、リポジトリ内の構築済みブループリントで利用可能です。または、これらの基本モデルを活用して精度を向上させることを目的として、カスタマイズされた(埋め込まれた)任意のブループリントに追加することもできます。
新しいブループリントは、リポジトリで入手できます。
クイックオートパイロットモードで特徴量セットの縮小が復活¶
このリリースでは、クイックモードでのデプロイ用モデルの作成時に、縮小された特徴量セットが再び作成されるようになりました。 1月に、DataRobotは、 AutoMLのクイックモードの機能強化を行いました。2月に、 時系列プロジェクトで、改善が利用可能となりました。 当時、フィッティングにはモデルの再トレーニングが必要であったため、DataRobotによって数が削減された特徴量セットの生成とフィッティングが自動で行われなくなりました。 現在、ユーザーリクエストに基づいて、デプロイ用のモデルを推奨および準備するとき、DataRobotは、削減済み特徴量セットを再度作成します。 ただし、このプロセスにはモデルフィッティングは含まれません。 推奨モデルまたはリーダーボードモデルにリストを適用するには、手動で再トレーニング可能です。
バックエンドの日付/時刻機能の簡素化¶
このリリースでは、日付/時刻のパーティショニングをサポートするメカニズムが簡素化され、特定のガードレールを緩和し、バックエンドロジックを合理化することによって柔軟性が向上します。 ユーザー向けの特異な変更はありませんが、以下の点に気付くかもしれません。
-
デフォルトのパーティショニングで十分な行がない場合、DataRobotは検定期間(トレーニングパーティションの先頭までのデータのうち、特徴量派生用に予約されている部分)を自動的に拡張します。
-
検定とホールドアウトの両方をカバーするのに十分な行がない場合、DataRobotは自動的にホールドアウトを無効化します。
-
DataRobotには、すべてのケースでトレーニングパーティションの開始前に、特徴量派生のためにデータを保存するときに予測ウィンドウが含まれます。 以前は、これは複数系列または広い予測ウィンドウにのみ適用されました。
Sklearnライブラリのアップグレード¶
このリリースでは、sklearnライブラリが0.15.1から0.24.2にアップグレードされました。その影響は以下のとおりです。
-
特徴量の関連性のインサイト:スペクトルクラスタリングロジックが更新されました。 これは、クラスターID(各クラスターの数値識別子、たとえば0、1、2、3)にのみ影響します。 特徴量の関連性のインサイトの値は影響を受けません。
-
AUC/ROCインサイト:sklearn ROC曲線の計算が改善されたため、AUC/ROC値のプレシジョンに若干の影響があります。
プレビュー¶
ワークベンチでエクスペリメントの検定/パーティション設定を拡張¶
ワークベンチでは、エクスペリメントの設定時に検定タイプを 設定および定義できるようになりました。 トレーニング-検定-ホールドアウト(TVH)の追加により、ユーザーは、精度を最大化するために、実行時間に影響を与えることなく、より多くのデータでモデルの構築を試すことができます。
必要な機能フラグ:フラグは不要です
ワークベンチのスライス¶
データスライスは、プロジェクトデータの部分母集団を作成するフィルターを設定できる機能で、 一部のワークベンチインサイトで使用できるようになりました。 データスライスドロップダウンからスライスを選択したり、新しいフィルターを作成するためのモーダルにアクセスしたりすることができます。
必要な機能フラグ:ワークベンチのスライス
時間認識プロジェクトのスライス(Classic)¶
プレビュー版の機能です。DataRobot Classicの時間認識(OTVおよび時系列)プロジェクトで、データスライスの作成と適用ができるようになりました。 スライスされたインサイトは、特徴量値に基づいて、モデルの派生データの部分母集団を表示するオプションを提供します。 プロジェクトのデータのセグメントに基づいてインサイトを表示および比較すると、モデルがさまざまな部分母集団でどのように動作するかを理解することができます。 スライスされたインサイトから取得したセグメントベースの精度情報を使用するか、セグメントを「グローバル」スライス(すべてのデータ)と比較して、トレーニングデータを改善、セグメントごとに個別モデルを作成、またはデプロイ後の予測を補強します。
必要な機能フラグ: 時間認識プロジェクトのスライスされたインサイト
Document AIがPDFドキュメントをデータソースとしてサポート¶
Document AIは、手作業が多いデータ準備手順を増やさずに、未処理のPDFドキュメントでモデルを構築する方法を提供します。 Document AIが登場するまでは、データ準備の要件が、ドキュメントをデータソースとして効率的に利用する上で困難な障壁となっていました。膨大なコーパスに分散している情報や、一貫性のない多様なフォーマットが原因で、ドキュメントを利用できないことさえありました。 Document AIによって、データを準備する際のドキュメントの処理が楽になるだけではありません。DataRobotは、リーダーボード上のモデルの比較、モデルの説明可能性、ブループリントのフルリポジトリへのアクセスなど、データソースとしてドキュメントに依存するプロジェクトに自動化をもたらします。
ユーザーが選択できる2つの新しいタスクがモデルブループリントに追加されたことで、DataRobotは(Document Text Extractorタスクで)埋め込みテキストを抽出するか、(Tesseract OCRタスクで)スキャンテキストを抽出して、モデル構築にPDFテキストを使用できるようになりました。 DataRobotはプロジェクトに基づいて自動的にタスクのタイプを選択しますが、必要に応じてそのタスクを柔軟に変更することができます。 Document AIは、連続値、二値および多クラス分類、多ラベル、クラスタリング、異常検知など、多くのプロジェクトタイプで使用できますが、単一のブループリント内でテキスト、画像、数値、カテゴリーなどのマルチモーダルサポートも提供します。
ドキュメントのテキスト要素の独自の性質を確認および理解できるように、DataRobotではドキュメントのインサイトの視覚化が導入されています。 DataRobotがドキュメントから抽出した情報と、正しいタスクを選択したかどうかをダブルチェックするのに便利です。
document
型のサポートは、他のいくつかのデータおよびモデルの視覚化にも追加されています。
必要な機能フラグ: ドキュメントの取込みを有効にする、ドキュメントの取込みでOCRを有効にする
ブループリントリポジトリとブループリントの視覚化¶
このデプロイでは、モデリングブループリントのライブラリであるブループリントリポジトリがワークベンチに導入されました。 クイックオートパイロットを実行した後、リポジトリにアクセスして、DataRobotがデフォルトで実行しなかったブループリントを選択することができます。 特徴量セットとサンプルサイズ(または時間認識の場合はトレーニング期間)を選択すると、DataRobotはブループリントを構築し、生成されたモデルをリーダーボードとエクスペリメントに追加します。
さらに、ブループリントの視覚化が可能になりました。 [ブループリント]タブには、モデルの構築に必要な前処理ステップ(タスク)、モデリングアルゴリズム、後処理ステップがグラフィカルに表示されます。
GPUがディープラーニングに対応¶
たとえば、ディープラーニングモデル、Large Language Modelsのサポートは、ビジネスユースケースの拡大において、ますます重要になっています。 CPUで実行できるモデルもありますが、適切なトレーニング時間を実現するためにGPUを必要とするモデルもあります。 これらの「重要な」ディープラーニングモデルを使用して効率的にトレーニング、ホスト、および予測を行うために、DataRobotは、アプリケーション内でNvidia GPUを活用します。 GPUのサポートが有効な場合、DataRobotは特定のタスクを含むブループリントを検出し、GPUワーカーを使用してそれらをトレーニングする可能性があります。 つまり、最小サンプルサイズが満たされていない場合、ブループリントは、CPUキューにルーティングされます。 さらに、ヒューリスティックによって、CPUワーカーのランタイムを抑えてトレーニングするブループリントが決定されます。
必要な機能フラグ: GPUワーカーを有効にする
アプリ¶
一般提供¶
時系列の予測実行アプリケーションに詳細ページを追加¶
時系列予測ウィジェットで、特定の予測や日付に絞って予測情報を表示できるようになり、予測値を見るだけでなく、同じ日付に行われた他の予測との比較も可能になりました。
予測の詳細を見るには、予測値対実測値または予測の説明チャートで予測をクリックします。 これにより、予測の詳細ページが開き、以下の情報が表示されます。
説明 | |
---|---|
1 | 予測ウィンドウ内の平均予測値 |
2 | 各予測に対して最大10個の予測説明 |
3 | 予測ウィンドウ内の予測距離ごとのセグメント分析 |
4 | セグメント分析に含まれる、予測距離ごとの予測の説明 |
ドキュメントをご覧ください。
プレビュー¶
DataRobotモデルでのStreamlitアプリケーションの構築¶
DataRobotモデルを使用してStreamlitアプリケーションを構築できるようになりました。StreamlitダッシュボードにDataRobotのインサイトを簡単に組み込むことができます。
含まれる内容と設定の詳細については、 dr-streamlit Githubリポジトリを参照してください。
ワークベンチでの新しいアプリエクスペリエンスを改善¶
このリリースでは、ワークベンチでの新しいアプリケーションエクスペリエンス(プレビュー版)に以下の改善が加えられています。
- 概要フォルダーでアプリケーションの作成に使用したモデルのブループリントを表示するようになりました。
- 利用可能なアプリのテーマにAlpine Lightが追加されました。
プレビュー機能のドキュメントをご覧ください。
機能フラグ: 新しいAIアプリの編集モードを有効にする
事前入力済みのアプリケーションテンプレート¶
以前は、新しいアプリケーションを作成すると、空白のテンプレートが開かれ、予測の生成を開始する方法についての説明が不十分でした。 現在では、アプリケーションを作成すると、トレーニングデータを使って設定されるため、モデルの出力をただちに明らかにし、紹介して、共同作業を行うことができます。
必要な機能フラグ: トレーニングデータでNCAテンプレートの事前入力を有効にする
プレビュー機能のドキュメントをご覧ください。
ワークベンチでの新しいアプリ体験¶
プレビュー版の機能です。DataRobotは新たにワークベンチに効率的なアプリケーションエクスペリエンスを導入しました。リーダーシップチーム、COEチーム、ビジネスユーザー、データサイエンティストなどが、貴重な情報のスナップショットを簡単に表示、探索、作成できるユニークな機能を利用できます。 このリリースには、以下の改善が実施されています。
- アプリケーションには、より直感的に操作できる新しいシンプルなインターフェイスがあります。
- すべての新たなワークベンチアプリから、特徴量のインパクトおよび特徴量ごとの作用を含むモデルインサイトにアクセスできます。
- ワークベンチのエクスペリメントから作成されたアプリケーションは、ワークベンチのアプリケーションビルダー以外では開かれなくなりました。
必要な機能フラグ: 新しいAIアプリの編集モードを有効にする
推奨機能フラグ: トレーニングデータでNCAテンプレートの事前入力を有効にする
プレビュー機能のドキュメントをご覧ください。
管理機能の強化¶
カスタムロールベースのアクセス制御(RBAC)¶
一般提供機能になりました。カスタムRBACは、DataRobotのデフォルトのロールでは対応できないユースケースを持つ組織向けのソリューションです。 管理者は、より詳細なレベルでロールを作成してアクセス権を定義し、ユーザーやグループに割り当てることができます。
ユーザー設定 > ユーザーロールからカスタムRBACにアクセスできます。ここには、DataRobotのデフォルトのロールなど、管理者が組織内のユーザーに割り当てることができる利用可能な各ロールが一覧表示されます。
詳しくは、完全なドキュメントをご覧ください。
組織およびアカウントリソース階層の改善¶
エンタープライズユーザーの場合、バージョン9.1ではアカウント組織に対するさまざまな改善が導入されています。
組織を持たない既存ユーザーは、自動的にデフォルトの組織に移動されました。
組織に属していないユーザーグループは、デフォルトの組織に移動されました。
SAMLまたはLDAP ID プロバイダーが設定されたクラスターでは、組織マッピングが(SAMLまたはLDAP 設定で)定義されていない場合、ユーザーが設定されたデフォルト組織内で作成されるようになりました。
システム管理者は、ユーザーを作成するときに、ユーザーの作成ページのドロップダウン内にデフォルトの組織が自動的に入力されるようになりました。
「マルチテナントプライバシー」が有効になっているクラスターの場合、組織に属さないプロジェクト管理者ロールを持つユーザーは、デフォルト組織以外の組織が所有している場合、一部のプロジェクトにアクセスできなくなることがあります。 ユーザーがデフォルトの組織に移動すると、この組織内のプロジェクトにのみアクセスできます。
サポート終了のお知らせ¶
特徴量ごとの予実が、APIから削除されました。¶
特徴量ごとの予実が、DataRobotのAPIから削除されました。 DataRobotは、同じ出力を提供するため、代わりに特徴量ごとの作用を使用することを推奨します。
お客様から報告された問題の修正¶
v9.0.4以降、以下の問題が修正されています。
記載されている製品名および会社名は、各社の商標または登録商標です。 製品名または会社名の使用は、それらとの提携やそれらによる推奨を意味するものではありません。