Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データ、モデリング、アプリ(V9.2)

2023年11月22日

DataRobot v9.2.0リリースには、以下で説明するように、データ、モデリング、アプリ、管理に関する多くの新機能と機能強化が含まれています。 リリース9.2のその他の詳細については、MLOpsおよびコードファーストに関するリリースのお知らせをご覧ください。

注目の新機能

複数のエクスペリメントのモデルを単一のビューで比較

機械学習でビジネス問題を解決することは反復的なプロセスであり、アイデアをテストして仮定を確認するために多くのエクスペリメントを実行する必要があります。 反復プロセスを簡素化するために、ワークベンチではモデル比較が導入されています。これは、単一のユースケース内の任意の数のエクスペリメントから最大3つのモデルを並べて比較できるツールです。 各エクスペリメントを個別に見て、その後の比較のために指標を記録する必要がなくなり、単一のビューですべてのエクスペリメントのモデルを比較できるようになりました。

比較リーダーボードは、ワークベンチ内の任意のプロジェクトからアクセスできます。 フィルターを使用して、モデルの検索と選択、さまざまなインサイトでのモデルの比較、選択したモデルのメタデータの表示と比較を容易に行うことができます。 比較タブはプレビュー機能で、デフォルトではオンになっています。

以下の動画では、比較機能の概要を簡単に説明します。

デフォルトではオンの機能フラグ:ユースケースでリーダーボードモデルの比較を有効にする

プレビュー機能のドキュメントをご覧ください。

リリース9.2

リリースv9.2では、以下の言語のUI文字列の翻訳が更新されています。

  • 日本語
  • フランス語
  • スペイン語
  • 韓国語
目的別にグループ化された機能
名前 一般提供 プレビュー
データ
データ接続参照の改善
Snowflakeのキーペア認証
AIカタログでのElasticsearchの無効化
Google BigQueryでワークベンチのデータセットをマテリアライズ
Databricksの追加サポートと接続の強化
AWS S3との接続の強化
モデリング
複数のエクスペリメントのモデルを単一のビューで比較
ワークベンチの時間認識機能を拡張し、時系列モデリングをサポート
Document AIがPDFドキュメントをデータソースとしてサポート
GPUの改善によりディープラーニングモデルのトレーニングを強化
期間精度をワークベンチとDataRobot Classicで一般提供
ワークベンチのリーダーボードにデータタブと特徴量セットタブを追加
クラスターモデルでの予測の説明の一般提供を開始
SHAPベースの予測の説明をワークベンチに追加
ワークベンチでブループリントリポジトリの一般提供を開始
オープンソースへのマッピングが可能になったブループリントJSONエンドポイント
DataRobot Classicでより詳細なモデルログ情報を提供
DataRobotでGoogle Kubernetes Engineをサポート
ライブラリのアップグレード
Kubernetesのサポートを拡張
アプリ
ワークベンチでの新しいアプリ体験

期限切れの古い機能に対するサポートの変更については、サポート終了に関する重要なお知らせをご覧ください。 このドキュメントでは、DataRobotの修正された​問題についても説明します。

データの強化

一般提供

データ接続参照の改善

このリリースでは、ワークベンチにおいてデータ接続の参照が改善されました。

設定の際にSnowflake、BigQuery、またはDatabricksのデータソースが指定されていない場合は、設定を保存した後にデータセットを参照して選択できます。 それ以外の場合は、スキーマリストビューに直接移動します。

Snowflakeのキーペア認証

一般提供機能になりました。Basic認証やOAuth認証の代わりに、キーペア認証方式(Snowflakeのユーザー名と秘密キー)を使用して、DataRobot ClassicとワークベンチでSnowflakeデータ接続を作成します。 キーペア認証では、セキュアな構成の共有も可能です。

AIカタログでのElasticsearchの無効化

AIカタログでアセットを検索する際にパフォーマンスの問題や予期せぬ動作が発生する場合は、Elasticsearchを無効にしてみてください。

機能フラグ:AIカタログの検索でElasticSearchを無効にする

プレビュー

Google BigQueryでワークベンチのデータセットをマテリアライズ

プレビュー版の機能です。BigQueryだけでなくデータレジストリでも、ラングリングされたデータセットをマテリアライズできます。 このオプションを有効にするには、ワークベンチでBigQueryデータセットをラングリングし、パブリッシュをクリックして、パブリッシュ設定モーダルでBigQueryにパブリッシュを選択します。

この機能を使用するには、BigQueryへの新しい接続を確立する必要があることに注意してください。

プレビュー機能のドキュメントをご覧ください。

Databricksの追加サポートと接続の強化

プレビュー版の機能です。Databricksに対する以下のサポートが、DataRobotに追加されました。

  • データ接続を作成して設定する。
  • 接続を介して追加されたデータは、動的データセットとして追加される。
  • Databricksのソースデータから直接サンプリングしたライブプレビューでデータを表示する。
  • Databricksのデータセットに対してラングリングを実行する。
  • Databricksと同様に、データレジストリでパブリッシュされたラングリングレシピをマテリアライズする。

プレビュー機能のドキュメントをご覧ください。

機能フラグ:

  • Databricksドライバーを有効にする
  • Databricksのラングリングを有効にする
  • ワークベンチでDatabricksのソース内マテリアライズを有効にする
  • ワークベンチで動的データセットを有効にする

AWS S3との接続の強化

新しいAWS S3コネクターがプレビュー版で利用可能になりました。パフォーマンスが強化され、一時的な資格情報やParquetファイルの取込みにも対応しています。

プレビュー機能のドキュメントをご覧ください。

機能フラグ:S3コネクターを有効にする

モデリング特徴量

一般提供

Document AIがPDFドキュメントをデータソースとしてサポート

DataRobot Classicで利用可能なDocument AIの一般提供を開始しました。Document AIは、手作業が多いデータ準備手順を増やさずに、未処理のPDFドキュメントでモデルを構築する方法を提供します。 Document AIは、大規模なコーパスに情報が分散している問題や、ドキュメントをデータソースとして効率的に利用するためのその他の障壁に対処して、データの準備を容易にし、PDFベースのモデルにインサイトを提供します。

期間精度をワークベンチとDataRobot Classicで一般提供

期間の精度は、データセット内の期間を定義し、その指標スコアをモデル全体の指標スコアと比較できるインサイトです。 すべての時系列プロジェクトで一般提供されるようになりました。 DataRobot Classicでは、特徴量は評価 > 期間精度タブにあります。 ワークベンチの場合、インサイトはエクスペリメント情報の下にあります。 インサイトは、 時間認識エクスペリメントでも使用できます

クラスターモデルでの予測の説明の一般提供を開始

クラスタリングで予測の説明を使用すると、特定の行のクラスター割り当てに最も貢献した要因が明らかになります。 一般提供機能になりました。このインサイトによって、クラスタリングモデルの結果をステークホルダーにわかりやすく説明できます。また、影響の大きい要因が特定されるため、事業戦略に注力できます。

多クラス予測の説明とよく似た機能ですが、クラスではなくクラスターについてレポートします。クラスターの説明は、リーダーボードとデプロイの両方から入手できます。 この機能は、XEMPベースのすべてのクラスタリングプロジェクトで利用可能ですが、時系列では利用できません。

ワークベンチでブループリントリポジトリの一般提供を開始

このリリースでは、ワークベンチにおいて、モデリングブループリントのライブラリであるブループリントリポジトリの一般提供を予測および時間認識プロジェクトを対象として開始しました。 クイックオートパイロットを実行した後、リポジトリにアクセスして、DataRobotがデフォルトで実行しなかったブループリントを選択することができます。 これらはリーダーボードとエクスペリメントに追加されます。

さらに、 ブループリントの視覚化がワークベンチで一般提供となり、モデルの構築に必要な前処理のステップ(タスク)、モデリングアルゴリズム、後処理のステップがグラフィカルに表示されるようになりました。

オープンソースへのマッピングが可能になったブループリントJSONエンドポイント

このリリースから、モデルブループリントのJSON表現をUIとAPIおよびクライアントパッケージの両方から取得できるようになり、透明性が向上しました。 DataRobotタスクのJSONにアクセスし、コンポーネントをオープンソースコードにマッピングして、DataRobotブループリントと同等のオープンソースを作成できるようになりました。 コードファーストのユーザーの場合、情報をプログラムですばやく取得して、ノートブックに組み込むことができます。 または、UIの説明 > ブループリントJSONタブからコピーすることもできます。 その後、パイプラインのニーズに合わせてコードが編集されます。

DataRobot Classicでより詳細なモデルログ情報を提供

このリリースでは、DataRobot Classicの説明にあるモデル情報タブとログタブに詳細が追加されました。 正常に終了した操作とエラーが発生した操作のステータスを表示するログタブに、より大きなジョブ内の各タスクの開始時刻と終了時刻が表示されるようになりました。 モデル情報最大RAMと、ブループリントステップが再使用されたためにどれだけの時間が節約されたかの指標であるキャッシュ時間の節約—が追加されました。

DataRobotでGoogle Kubernetes Engineをサポート

DataRobotでは、リリースバージョン9.2から、Google Kubernetes Engine (GKE) (https://cloud.google.com/kubernetes-engine?hl=ja) クラスターをサポートするようになりました。

ライブラリのアップグレード

DataRobotリリースバージョン9.2では、以下のライブラリのアップグレードを行いました。

  • Tensorflow 2.7.4 → 2.11.1
  • Python 3.7 - > 3.10
  • Joblib 0.17.0 → 1.3.2

Kubernetesのサポートを拡張

DataRobotリリースバージョン9.2では、Amazon EKS、Azure AKS、Google GKEでKubernetes 1.26と1.27をサポートしています。 また、OpenShift 4.13(Kubernetes 1.26)もサポートしています。

プレビュー

ワークベンチの時間認識機能を拡張し、時系列モデリングをサポート

このデプロイでは、DataRobotユーザーは日付/時刻のパーティショニングを使用して、時系列ベースのエクスペリメントを構築できるようになりました。 時系列の設定、モデリング、インサイトのサポートにより、日付/時刻のパーティショニングが拡張され、予報機能をワークベンチにもたらします。 グラフィカルな表示によるシンプルなウィンドウ設定モーダルなど、大幅に効率化されたワークフローにより、ワークベンチのユーザーは時系列エクスペリメントを簡単に設定できます。

モデリングの後、すべての時系列インサイトに加えて、 バックテストサマリーとパーティションログを出力するエクスペリメントサマリーデータが使用可能になります。 補記:

特徴量セットとデータセットビューでは、特徴量の抽出と低減の結果を表示できます。

クイックモードでは、最も重要なブループリントだけがトレーニングされるので、ブループリントリポジトリから、より多くのニッチな時系列モデルまたは長時間実行の時系列モデルを手動で構築できます。

新しいモデルの作成、評価、トレーニングの方法については、プレビュー機能の ドキュメントをご覧ください。

デフォルトではオンの機能フラグ:

  • ワークベンチで日付/時刻パーティション(OTV)を有効にする
  • 時系列プロジェクトでワークベンチを有効にする

ワークベンチのリーダーボードにデータタブと特徴量セットタブを追加

このデプロイでは、リーダーボードに表示されるエクスペリメント情報に2つの新しいタブが追加されました。

  • データタブは、プロジェクトで使用されるデータのサマリー分析を実行します。

  • 特徴量セットタブには、エクスペリメント用に構築され、モデルトレーニングに使用できる特徴量セットが一覧表示されます。

デフォルトではオンの機能フラグ:UXRのリーダーボードデータと特徴量セット

プレビュー機能のドキュメントをご覧ください。

SHAPベースの予測の説明をワークベンチに追加

SHAPベースの予測の説明では、各特徴量が特定の予測にどの程度寄与するかを推定し、平均値との差として報告します。 直感的で、制限がなく(すべての特徴量に対して計算されます)、高速で、SHAPのオープンソースの性質により透明性があります。 このデプロイにより、ワークベンチにおいて、SHAPベースの説明が時系列以外のすべてのエクスペリメントでサポートされるようになりました。 モデル概要タブからアクセスできる、SHAPベースの説明には、モデルパフォーマンスに対する全般的な「直観」のプレビューが表示され、データセット全体についての説明を参照するためのオプションも用意されています。

プレビュー機能のドキュメントをご覧ください。

デフォルトではオンの機能フラグ:ワークベンチでSHAPを有効にする

GPUの改善によりディープラーニングモデルのトレーニングを強化

今回のデプロイでは、プレビュー版のGPU機能が以下のように強化されました。

  • GPUトレーニング用のブループリントが追加され、MiniLM、RoBERTa、TinyBERTの各フィーチャライザーが利用可能になりました。

  • プロジェクトに応じて:

    • クイックオートパイロットの実行中に、Keras Text Convolutional Neural Networkブループリントをトレーニングできます。
    • フルオートパイロットの実行中に、Image Finetunerブループリントをトレーニングできます。
  • GPUとCPUのバリアントがリポジトリで利用可能になり、どのワーカータイプでトレーニングするかを選択できるようになりました。

  • GPUバリアントブループリントは、GPUワーカーでより高速にトレーニングできるように最適化されています。

プレビュー機能のドキュメントをご覧ください。

デフォルトではオフの機能フラグ:GPUワーカーを有効にする

アプリ

一般提供

ワークベンチでの新しいアプリ体験

一般提供機能になりました。DataRobotは、新たにワークベンチに効率的なアプリケーションエクスペリエンスを導入しました。貴重な情報のスナップショットを簡単に表示、探索、作成できるユニークな機能を利用できます。 このリリースには、以下の改善が実施されています。

  • アプリケーションのインターフェイスと作成ワークフローがシンプルになり、より直感的に操作できるようになりました。
  • アプリケーションの作成では、アプリケーションを支えるモデルに基づいて、特徴量のインパクトやROC曲線などのインサイトが自動的に生成されます。
  • ワークベンチのエクスペリメントから作成されたアプリケーションは、ワークベンチのアプリケーションビルダー以外では開かれなくなりました。

記載されている製品名および会社名は、各社の商標または登録商標です。 製品名または会社名の使用は、それらとの提携やそれらによる推奨を意味するものではありません


更新しました May 2, 2024