Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

Unsupervised predictive modeling

Unsupervised learning uses unlabeled data to surface insights about patterns in your data. Supervised learning, by contrast, uses the other features of your dataset to make predictions. The unsupervised learning setup is described below.

基本的なエクスペリメント設定

ユースケース内から新しいエクスペリメントを作成するには、次の手順に従います。

備考

モデリングを開始ボタンをクリックして、データセットから直接モデリングを開始することもできます。 新しいエクスペリメントの設定ページが開きます。 ここから、以下の手順に従ってください。

特徴量セットを作成

Before modeling, you can create a custom feature list from the data explore page. You can then select that list during modeling setup to create the modeling data using only the features in that list. Learn more about feature lists post-modeling here.

エクスペリメントを追加

ユースケース内から追加をクリックし、エクスペリメントを選択します。 新しいエクスペリメントの設定ページが開き、ユースケースにロード済みのすべてのデータが一覧表示されます。

データを追加

新しいデータを追加 する(1)か、ユースケースに既にロードされているデータセットを選択する(2)ことにより、エクスペリメントにデータを追加します。

データがユースケースにロードされたら(上記のオプション2と同様)、エクスペリメントで使用するデータセットをクリックして選択します。 ワークベンチは、データのプレビューを開きます。

ここから、次のことができます。

オプション
1 クリックして、データリストに戻り、別のデータセットを選択します。
2 アイコンをクリックして続行し、学習タイプとターゲットを設定します。
3 次へをクリックして続行し、学習タイプとターゲットを設定します。

モデリング設定の開始

続行すると、ワークベンチでは、モデリング用のデータセットが準備されます(EDA 1)。

備考

これ以降のエクスペリメントの作成では、エクスペリメントの設定を続行しても(次へ)、終了してもかまいません。 終了を選択すると、変更を破棄するか、すべての進捗をドラフトとして保存するよう促されます。 どちらの場合でも、終了時にはエクスペリメントのセットアップを開始した時点に戻り、EDA1の処理は失われます。 終了してドラフトを保存を選択すると、ドラフトはユースケースディレクトリで利用できます。

ワークベンチで作成したドラフトをDataRobot Classicで開き、ワークベンチでサポートされていない機能を導入する変更を加えた場合、そのドラフトはユースケースにリストされますが、Classicインターフェイス以外からはアクセスできません。

Set learning type

一般的にDataRobotはラベル付けされたデータを使用し、モデルを構築するために教師あり学習法が使用されます。 教師あり学習では、ターゲットを指定すると、データセットのその他の特徴量を使用してそのターゲットを予測することができるモデルが構築されます。

教師なし学習では、ターゲットを指定せず、データにラベルを付けません。 教師あり学習としての予測を生成する代わりに、教師なし学習はデータ内のパターンについてインサイトし、「データに異常がないか?」 「自然クラスターがあるか?」といった質問に答えます。

EDA1の完了後に教師なし学習のエクスペリメントを作成するには、学習タイプのドロップダウンから、以下のいずれかを選択します。

学習タイプ 説明
教師あり Builds models using the other features of your dataset to make predictions; this is the default learning type.
クラスタリング(教師なし) Using no target and unlabeled data, builds models that group similar data and identify segments.
異常検知(教師なし) Using no target and unlabeled data, builds that detect abnormalities in the dataset.

See the feature considerations for things to know when working with unsupervised modeling.

クラスタリング

クラスタリングを使用すると、数値データ、カテゴリーデータ、テキストデータ、画像データ、地理空間データなど、さまざまなタイプのデータを個別に、または組み合わせてグループ化し、自然なセグメントを特定することによって、データを探索できます。 クラスタリングモードでは、DataRobotは、データセット内の列で明示的にキャプチャされていない潜在動作をキャプチャします。 クラスタリングは、データに明示的なラベルが付いておらず、データがどういった形であるかを判断する必要がある場合に有用です。 クラスタリングの例には次のようなものが考えられます:

  • テキストコレクションにおける、トピック、タイプ、分類、および言語の検出。 クラスタリングは、テキスト特徴量と他の特徴量の型が混在するデータセットにも、トピックモデリングのための単一のテキスト特徴量にも適用できます。

  • 予測マーケティングキャンペーンを実行する前の、カスタマーベースのセグメント化。 顧客の主要グループを識別し、各グループにさまざまなメッセージを送信します。

  • 画像のコレクションにおいて潜在的なカテゴリーを把握します。

クラスタリングの設定

クラスタリングのエクスペリメントを設定するには、学習タイプクラスタリングに設定します。 教師なしエクスペリメントではターゲットを指定しないため、ターゲット特徴量フィールドは削除され、他の基本設定が利用可能になります。

The table below describes each field:

フィールド 説明
モデリングモード モデリングモード。DataRobotがトレーニングするブループリントに影響します。 Comprehensive Autopilot, the default, runs all repository blueprints on the maximum Autopilot sample size to provide the most accurate similarity groupings.
最適化指標 Defines how DataRobot scores clustering models. For clustering experiments, Silhouette score is the only supported metric.
トレーニング特徴量セット Defines the subset of features that DataRobot uses to build models.

クラスター数の設定

DataRobotは固定数のクラスターの設定をサポートする各アルゴリズムの1つのモデルをトレーニングします(K平均法またはGaussian混合モデルなど)。 トレーニングされるモデル数はクラスターの数で指定された数に基づき、デフォルト値はデータセットの行数に基づきます。

たとえば、上の図のように数値を設定すると、DataRobotは3、5、7、10クラスターを使用してクラスタリングアルゴリズムを実行します。

DataRobotがトレーニングするクラスターの数をカスタマイズするには、追加の自動化設定を表示を展開し、表示された範囲内の値を入力します。

When settings are complete, click Next and Start modeling.

異常検知

異常検知(外れ値検知または新規性検知とも呼ばれます)は、教師なし学習の応用の一種です。 異常検知は、ネットワークとサイバーセキュリティ、保険詐欺、クレジットカード詐欺など、多くの通常のトランザクションと少量の異常トランザクションが存在する場合に使用できます。 教師ありの方法は、このような少数の異常ケースの予測において優れていますが、関連データにラベルを設定するにはコストと時間がかかります。 異常検知の使用に関する重要な情報については、機能に関する注意事項を参照してください。

異常検知の設定

異常検知のエクスペリメントを設定するには、学習タイプ異常検知に設定します。 パーティション特徴量が必要です。

フィールド 説明
モデリングモード モデリングモード。DataRobotがトレーニングするブループリントに影響します。 Quick Autopilot, the default, provide a base set of models that build and provide insights quickly.
最適化指標 Defines how DataRobot scores clustering models. For anomaly detection experiments, Synthetic AUC is the default, and recommended, metric.
トレーニング特徴量セット Defines the subset of features that DataRobot uses to build models.

Anomaly detection also supports geospatial modeling. Set the geospatial settings to see anomaly scores based on a dataset's location features and geospatial patterns in your data. When settings are complete, click Next and Start modeling.

Unsupervised insights

モデリングを開始すると、DataRobotでリーダーボードにモデルが入力されます。 The following table describes the insights available for unsupervised anomaly detection (AD) and clustering for predictive experiments.

インサイト 異常検知 クラスタリング
ブループリント はい はい
特徴量ごとの作用 はい はい
特徴量のインパクト はい はい
予測の説明* はい いいえ
クラスターインサイト** いいえ はい

* XEMP only and Classic only
** 時間認識のみ

機能に関する注意事項

Unsupervised learning availability is license-dependent:

機能 予測 日付/時刻のパーティション 時系列
異常検知 一般提供 一般提供 プレミアム(系列ライセンス)
クラスタリング プレミアム(クラスタリングライセンス) 使用できません プレミアム(系列ライセンス)

クラスタリングに関する注意事項

クラスタリングを使用する場合、以下の点を考慮してください。

  • クラスタリングプロジェクトのデータセットは、5GB未満である必要があります。
  • 以下はサポートされていません。

    • リレーショナルデータ(集計されたカテゴリー特徴量など)
    • ワードクラウド
    • 特徴量探索プロジェクト
    • 予測の説明
    • スコアリングコード
  • クラスタリングモデルは、専用の予測サーバーにデプロイできますが、ポータブル予測サーバー(PPS)および監視エージェントはサポートされていません。

  • クラスターの最大数は100です。

異常検知に関する注意事項

異常検知プロジェクトに従事する場合は、次の点にご注意ください:

  • 数値が欠損している場合、DataRobotは、中央値(定義上異常ではない値)で補完します。

  • データセットの特徴量数が多いほど、DataRobotは異常検知するのに時間がかかり、結果を解釈することがより困難になります。 特徴量が1000以上の場合は、異常スコアの解釈が難しくなり、異常の根本原因を特定することが困難になる可能性があることに注意してください。

  • 1000を超える特徴量で異常検知モデルをトレーニングした場合、解釈タブのインサイトは使用できません。 これには、特徴量のインパクト、特徴量ごとの作用、予測の説明、ワードクラウド、ドキュメントインサイト(該当する場合)が含まれます。

  • 異常スコアは正規化されるので、DataRobotでは、正常からあまり離れていない場合でも一部の行が異常値としてラベル付けされます。 トレーニングデータの場合、最も異常な行のスコアは1になります。一部のモデルでは、テストデータや外部データは、その行がトレーニングデータの他の行よりも異常である場合に、異常スコアの予測値が1よりも大きくなることがあります。

  • 合成AUCは、トレーニングデータの合成異常やインライアの作成に基づく近似です。

  • 合成AUCのスコアは、画像特徴量を含むアンサンブルでは使用できません。

  • DataRobotブループリントからトレーニングされた異常検知モデルの特徴量のインパクトは、常にSHAPを使用して計算されます。 ユーザーブループリントからの異常検知モデルの場合、特徴量のインパクトは、Permutationベースのアプローチを使用して計算されます。

  • 時系列の異常検知は、ピュアテキストデータの異常に対してまだ最適化されていないため、データにはいくつかの数値列またはカテゴリー列を含める必要があります。

  • 以下の方法が実装されていて、チューニング可能です。

方法 詳細
Isolation Forest
  • 最大200万行
  • データセット < 500 MB
  • 数値+カテゴリー+テキスト列の数 > 2
  • 最大26のテキスト列
平均絶対偏差(MAD)
  • 任意の行数
  • すべてのサイズのデータセット
  • 最大26のテキスト列
1クラスのSupport Vector Machine(SVM)
  • 最大10,000行
  • データセット < 500 MB
  • 数値+カテゴリー+テキスト列の数 < 500
Local Outlier Factor(LOF)
  • 最大500,001行
  • データセット < 500 MB
  • 最大26のテキスト列
Mahalanobis Distance
  • 任意の行数
  • すべてのサイズのデータセット
  • 最大26のテキスト列
  • 少なくとも1つの数値またはカテゴリー列
  • 以下はサポートされていません。

  • スマートダウンサンプリングなどの、加重またはオフセットを含むプロジェクト

  • スコアリングコード

  • 異常検知では地理空間データは考慮されません(モデルは構築されますが、これらのデータ型はブループリントに含まれません)。

さらに、時系列プロジェクトの場合は、次のチェックも実行されます。

  • ミリ秒データは、データのきめ細かさの下限です。
  • データセットは1GB未満である必要があります。
  • いくつかのブループリントは、純粋なカテゴリーデータには実行できません。
  • 一部のブループリントは特徴量セットに関連付けられており、特定の特徴量を想定しています(たとえば、ボリンジャーバンドローリングは、ロバストZスコア特徴量だけを含む特徴量セットに対して実行する必要があります)。
  • 周期性を持つ時系列プロジェクトでは、周期性を適用すると特徴量の削減や処理の優先順位に影響するため、特徴量が多すぎる場合は、季節的特徴量も、時系列で抽出された特徴量セットおよび時系列で有用な特徴量セットに含まれません。

また、時系列の注意事項が適用されます。


更新しました January 29, 2025