Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

用語集

DataRobot用語集は、DataRobotプラットフォームに関連する用語の簡単な定義を提供します。 これらの用語は、データからデプロイまで、機械学習のすべてのフェーズにまたがっています。

すべて AIカタログ バイアスと公平性 データの準備 特徴量探索 MLOps 予測 時間認識 Visual Artificial Intelligence (AI)

A


位置ごとの精度

A model Leaderboard tab (Evaluate > Accuracy Over Space) and Location AI insight that provides a spatial residual mapping within an individual model.

時系列の精度

A model Leaderboard tab (Evaluate > Accuracy Over Time) that visualizes how predictions change over time.

ACEスコア

交替条件付き期待値としても知られています。 特徴量とターゲットの相関関係を示す一変量の指標。 ACEスコアは、非線形関係性を検出できますが、単変量であるため、交互作用効果は検出しません。

高度なチューニング

The ability to manually set model parameters after the model build, supporting experimentation with parameter settings to improve model performance.

実測値

(予測)予測結果を追跡できるMLモデルの実測値。 デプロイされたモデルの精度統計を生成するには、モデルの予測値と問題の実際の実測値を比較します。 予測データセットと実測値データセットの両方に関連付けIDが含まれている必要があります。これにより、データセット内の対応する行を照合して、モデルの精度を測定できます。

集計画像特徴量:

(Visual Artificial Intelligence (AI))そのセットの個々の要素が構成イメージ特徴量であるイメージ特徴量のセット。 たとえば、画像から抽出された画像特徴量のセットには、以下を示す特徴量のセットが含まれる場合があります。

  1. 画像の個々のピクセルの色。
  2. 画像内でエッジが存在する場所。
  3. イメージ内で面が存在する場所。

集計から、データ分析モデルの出力に対するその特徴量の影響を判断し、その影響をモデルの他の特徴量の影響と比較することができる場合があります。

AIカタログ

さまざまなオブジェクトタイプの定義およびそれらの関係性を含む登録済みオブジェクトコレクション。参照と検索が可能です。 カタログに格納される項目は、データ接続、データソース、データメタデータです。

AIM

探索的データ分析の第2フェーズ(EDA2)で、ターゲット特徴量との相互相関に基づいて特徴量の有用性を決定します。 そのデータは、オートパイロット中にモデリングに使用される「有用な特徴量」を決定します。

交替条件付き期待値

ACEスコアを参照してください。

異常検知

データの異常検知に用いられる教師なし学習の一種。 異常検知は外れ値検知や新規性検知とも呼ばれ、不規則性の割合が低いデータや大量のラベルのないデータを使用する場合に有効です。

AnswerSet

(Data Prep)公開されたデータの準備ステップの結果。 すべてのData Prepステップの結果をAnswerSetにエクスポートすることもできますし、レンズを作成してAnswerSetとしてエクスポートするステップのセットを指定することもできます。

APF

自動プロジェクトフローを参照してください。

アプリ

AIアプリビルダーで作成したアプリケーションを参照してください。

ARIMA(自己回帰和分移動平均)

時系列モデルの一種で、ある系列のパターンのみに基づいて、その系列の将来の値を予測するモデル。

関連付けID

(MLOps)予測データセットの外部キーとして機能する識別子です。これによって、実測値をデプロイ済みのモデルから予測された値と一致させることができます。 関連付けIDは、デプロイ済みのモデルの精度の監視に必要です。

AUC(曲線の下の領域)

可能性のあるすべてのしきい値を考慮し、性能をROC曲線上の単一の値に集約して表す二値分類の一般的な誤差指標。 これは、モデルの機能を最適化して1を0から分離することによって機能します。 曲線下の面積が大きいほど、モデルの精度は高くなります。

拡張知能

DataRobotの人工知能を強化したアプローチが、現在のモデル構築とデプロイ支援業務を拡大します。 DataRobotプラットフォームは、データ取込み、モデルのトレーニングと予測、モデルに依存しない監視と管理にいたる一連のAIのライフサイクルを完全に自動化して管理します。 ガードレールは、機械学習モデルやAIアプリケーションを作成する際のデータサイエンスのベストプラクティスを保証します。 ユーザーペルソナ全体の透明性を確保し、保存場所に関係なくデータを利用できます。これにより、慣行的なロックインを回避し、クラウドとオンプレミスで一貫性のある戦略的な運用を実現できます。

自動プロジェクトフロー(APF)

(Data Prep)精選されたデータフローを運用するための機能。 APFを使用して、プロジェクト、データセット、AnswerSetの一連のData Prepステップをスケジュールします。 続いて、APF の監視機能を使用して実行プロスを管理します。

AutoML(Automated Machine Learning)

特定のユースケースで最もパフォーマンスの高いモデルを特定することを目的とし、モデリング用のデータセットの準備やモデル選択プロセスの実行に関連するタスクの多くを自動化した上で、生成したモデル全体のパフォーマンスを決定するソフトウェアシステム。

オートパイロット(フルオートパイロット)

DataRobot の「適者生存」モデリングモードで、指定されたターゲット特徴量に最適な予測モデルを自動的に選択し、増え続けるサンプルサイズで実行します。 つまり、初期段階では小さなサンプルサイズでより多くのモデルを実行し、上位モデルのみを次の段階に進めます。 In full Autopilot, DataRobot runs models (by default) at 16% of total data and advances the top 16 models, then runs those at 32%. その実行から上位8つのモデルが、データの64%(または500MBのデータのどちらか少ないほう)を使用してDataRobotが実行されます。 See also Quick(Autopilot) and Comprehensive.

AutoTS(自動化された時系列)

特徴量化、モデルの仕様、モデルのトレーニング、モデルの選択、検定、予測の生成など、予測モデルの構築に必要なすべてまたはほとんどのステップを自動化するソフトウェアシステム。

平均ベースライン

(時間認識)特徴量派生ウィンドウ内のターゲットの平均。

B


バックテスト

(時間認識)時系列における交差検定に相当する検定方法。 しかし、交差検定とは異なり、バックテストでは、データセットからランダムな行を選択するのではなく、特定のピリオドや期間を選択してテストに使用して、「トライアル」を作成できます。

基本データセット

(Data Prep)すべてのアクションが実行されるデータの準備プロジェクトにインポートされたデータ。

ベースラインモデル

(AutoML、時間認識)naiveモデルとも呼ばれます。 生成されたMLモデルが、基本的な非MLモデルよりも高い精度で学習していることを確認するための比較ポイントとして使用される単純なモデル。

たとえば、連続値プロジェクト用に生成されたMLモデルは、ターゲットの平均値や中央値を予測するベースラインモデルよりも優れたパフォーマンスを発揮する必要があります。 時系列プロジェクト用に生成されたMLモデルは、最新の実測値を使用して将来を予測する(つまり、今日の実測値を明日の予測値とする)ベースラインモデルよりも優れたパフォーマンスを発揮する必要があります。

時系列プロジェクトの場合、ベースラインモデルを使用してMASE指標を算出します(ベースラインモデルに対するMAE指標の比率)。

バッチ予測

(MLOps、予測)大規模なデータセットで予測を作成する方法で、入力データを渡すと各行の予測結果が得られます。予測結果は出力ファイルに書き込まれます。 ユーザーは、予測インターフェイスの経由でMLOpsによるバッチ予測を行うか、バッチ予測APIを使用して予測を自動化できます。 予測データのソースと宛先を指定し、予測が実行される時期を決定することで、バッチ予測ジョブをスケジュールします。

バイアス軽減

Augments blueprints with a pre- or post-processing task intended to reduce bias across classes in a protected feature. Bias Mitigation is also a model Leadboard tab (Bias and Fairness > Bias Mitigation) where you can apply mitigation techniques after Autopilot has finished.

バイアス対精度

バイアス対精度チャートは、予測精度と公平性の間のトレードオフを表しており、保護された特徴量に関する各モデルの精度スコアと公平性スコアの手動で記録する必要がなくなります。

「ブラインド履歴」

(時間認識) 「ブラインド履歴」は、最近のデータ(たとえば、 「直近」 は常に1週間前である場合があります)へのアクセスの遅れによって生じたギャップを補います。 これは、特徴量派生ウィンドウで指定された値のうち小さい方から予測ポイントまでの期間として定義されます。 ギャップが0の場合は「今日とそれ以前のデータを利用」、ギャップが1の場合は「昨日からのデータを利用」というふうになります。

アンサンブル

A model that potentially increases accuracy by combining the predictions of between two and eight models. DataRobot can be configured to automatically create blender models as part of Autopilot, based on the top three regular Leaderboard models (for AVG, GLM, and ENET blenders). You can also create blenders manually (aka ensemble models).

ブループリント

入力された予測変数と目標値を、モデルに変換するために必要な多くのステップをグラフィック表示します。 ブループリントは、前処理のステップ、アルゴリズム、後処理など、モデルを学習させる際のエンドツーエンドの手順の概要を表します。 ブループリント内の各ボックスは、複数手順を表す場合があります。 リーダーボードでモデルをクリックすると、ブループリントのグラフィック表現を表示できます。 ユーザーのブループリントも参照してください。

C


「運用化できない」期間

(時間認識) 「運用化できない」期間とは、予測ポイントの直後から予測ウィンドウの開始までの空白期間を指します。 この期間は、短すぎるため有用ではありません。 たとえば、明日必要な人員を予測することは、その予測に基づいた行動をとるには遅すぎるかもしれません。

カタログ

AI カタログを参照してください。

Centroid

教師なし学習を使用して生成されたクラスターの中心。 セントロイドはクラスターの多次元平均であり、その寸法は観測地(データポイント)です。

CFDS(カスタマーフェーシングデータサイエンティスト)

DataRobotの担当者が、責任を持ってユーザーと潜在的なユーザーの技術的な成功をサポートします。 CFDSは、DataRobotの完全なインテグレーションのためのデータサイエンス問題の構造化などのタスクを支援します。 CFDSは、ユーザーの成功を確実にすることに情熱を注いでいます。

チャレンジャーモデル

(MLOps)現在配備されているモデル(「チャンピオン」モデル)と比較することで、デプロイ後も継続的に比較可能なモデル。 デプロイされたモデルをシャドーイングするためにチャレンジャーモデルを提示し、チャンピオンモデルで行われた予測を再生して、より適合性の高い優れたDataRobotモデルがあるかどうかを判断します。

チャンピオンモデル

(時間認識、MLOps)デプロイ(MLOps)またはセグメント化されたモデリング用にDataRobotが推奨するモデル。

MLOpsでは、デプロイ用に選択したチャンピオンを自分で置き換えるか、自動再トレーニングを設定できます(継続的なAI)ここで、DataRobotはチャレンジャーモデルをチャンピオンモデルと比較し、チャレンジャーがチャンピオンを上回っている場合はチャンピオンモデルを置き換えます。

セグメント化されたモデリングワークフローでは、DataRobotは各セグメントのモデルを構築します。 DataRobotは、各セグメントに最適なモデル(セグメントチャンピオン)を推奨しています。 セグメントチャンピオンは、複合モデルにロールアップします。 セグメントごとに、チャンピオンとして異なるモデルを選択できます。これは、結合モデルで使用されます。

チャネル

あるモジュールの出力ポートと別のモジュールの入力ポートの間の接続。 1つのモジュールの出力ポートからチャネルを介した別のモジュールの入力ポートへのデータの流れ。それらを結ぶ線で視覚的に表されます。

分類

値を離散的な最終結果またはクラスに分類する一種の予測問題。 二値分類 問題は、予測しようとしているものが2つのクラス(「Yes」または「No」など)のいずれかである可能性があるデータセットです。 多クラス分類 は、3つ以上の結果(「購入」、「販売」、または「保留」など)が考えられる分類問題です。 Unlimited multiclass is the ability to handle projects with a target feature containing an unlimited number of classes, with support for both a high threshold of individual classes and multiclass aggregation to support an unlimited number of classes above the threshold.

(Data Prep)ビジネスインテリジェンス(BI)ツールやデータ可視化ツール(Tableau®など)からData Prepのコンポーネントへのリンクです。 BIツールや可視化ツールのClicktoPrepリンクから、Data Prepプロジェクトの最終ステップであるData Prep Filtergram、またはData Prepプロジェクトの特定のステップに移動できます。 Data Prep データを変更した後で、BI ツールや視覚化ツールを使い、Data Prep データの視覚化およびレポートの再発行や更新ができます。

クラスタリング

同様のデータのグループ化と自然セグメントの識別に使用される教師なし学習の形式。

係数

A model Leaderboard tab (Describe > Coefficients) that provides a visual indicator of information that can help you refine and optimize your models.

統合されたモデル

(時間認識) セグメントモデリングのワークフローで最終的に生成されたモデル。 セグメントモデリングでは、DataRobotはセグメントごとにモデルを構築し、各セグメントのチャンピオンモデルを1つのモデルに統合して、デプロイできるようにします。

共通イベント

(時間認識)週のデータの大部分が特定のデータポイントである場合、そのデータポイントは共通イベントになります(たとえば、通常の営業日と営業時間は共通イベントですが、不定期の週末に発生するデータポイントは非共通イベントです)。

コンプライアンスに関するドキュメント

Automated model development documentation that can be used for regulatory validation. The documentation provides comprehensive guidance on what constitutes effective model risk management.

Composable ML

データサイエンティスト向けに設計されたコード中心の機能。カスタムの前処理やモデリング手法を適用して、モデルトレーニングのブループリントを作成することができます。 組み込みタスクやカスタムタスクを使って、新しいブループリントを作成し、さらにDataRobotの他の機能と連携させることで、機械学習パイプラインを補強・改善することができます。

包括的

モデルの正解率を高めるために、maximum(最大)のオートパイロットサンプルサイズですべてのリポジトリブループリントを実行するモデリングモード。

コンピュータービジョン

(Visual Artificial Intelligence (AI))画像データを分析および解釈を目的としたコンピューターシステムの使用。 一般的に、コンピュータービジョンツールは、幾何学の原理を組み込んだモデルを使用して、コンピュータービジョンドメイン内の特定の問題を解決します。 たとえば、コンピュータービジョンモデルをトレーニングして、オブジェクト認識(オブジェクトのインスタンスや画像内のオブジェクトクラスの認識)、識別(画像内のオブジェクトの個々のインスタンスの識別)、検出(画像内の特定のタイプのオブジェクトやイベントの検出)などを実行することができます。

コンピュータービジョンツール/技法

(Visual Artificial Intelligence (AI))ツール(たとえば、モデル、画像の前処理、特徴の抽出、検出/セグメンテーション機能を実行するシステム)。

混同行列

実測値と予測値を比較した表。 「混同行列」という名前は、モデルが2つの分類を混同している場合(1つのクラスをもう1つのクラスと混同してしまう場合)、行列で表現することによってわかりやすくすることに由来します。 混同行列は、DataRobotのROC曲線、Eureqa、および多クラスモデルの視覚化のための混同行列の一部として利用できます。

制約

A model Leaderboard tab (Describe > Constraints) that allows you to review monotonically constrained features if feature constraints were configured in Advanced Options prior to modeling.

Continuous AI

(MLOps)スケジュールやイベント(精度の低下やデータドリフトなど)に基づいて運用モデルを更新する、MLOpsの再トレーニング戦略。 また、Continuous AIでは、DataRobotのAutoMLを使用して、新しいチャレンジャーモデルを自動的に作成し、その使用も推奨しています。 これらの戦略を組み合わせることで、高精度かつタイムリーな予測が可能になります。

資格情報

(AI カタログ)データ接続の認証と承認アクションに使用される情報。 最も一般的な接続はユーザー名とパスワードですが、代替の認証方法にLDAP、Active Directory、Kerberosなどがあります。

クラス別の精度

A model Leadboard tab (Bias and Fairness > Cross-Class Accuracy) that helps to shows why the model is biased, and where in the training data it learned the bias from. Bias and Fairness settings must be configured.

クラス間のデータの相違

A model Leadboard tab (Bias and Fairness > Cross-Class Data Disparity) that calculates, for each protected feature, evaluation metrics and ROC curve-related scores segmented by class. Bias and Fairness settings must be configured.

交差検定

CVとも呼ばれます。 モデルのパフォーマンステスト(検定)のために実行される検定パーティションの一種。 検証データのサブセット(「分割」)を使用して、DataRobotは分割ごとに1つのモデルを作成し、その分割に割り当てられたデータを検証に使用し、残りのデータをトレーニングに使用します。 デフォルトでは、DataRobotは5分割交差検定を使用し、リーダーボードにそれらの5つのスコアの平均を表示します。 検定も参照してください。

カスタム推論モデル

(MLOps)カスタムモデルワークショップを介してファイルの集合体としてアップロードされた、ユーザーが作成した事前学習済みモデル。 モデルアーティファクトをアップロードすることで、カスタム推論モデルの作成、テスト、およびデプロイをDataRobotの集中デプロイハブに一元化できます。 推論モデルは、事前定義された入力/出力スキーマを含めることも、非構造化することもできます。 モデルトレーニングの前にカスタマイズするには、カスタムタスクを使用します。

カスタムモデルワークショップ

(MLOps)モデルレジストリ内の、ユーザーが作成した事前学習済みモデルを、ファイルの集合体としてアップロードできる場所。 これらのモデルアーティファクトを使用して、DataRobotの一元化されたデプロイハブにカスタム推論モデルを作成、テスト、およびデプロイすることができます。

カスタムタスク

データ変換またはMLアルゴリズム(XGBoostやワンホットエンコーディングなど)。DataRobot内のMLブループリントのステップとして、またモデルのトレーニングにも使用できます。 タスクはPythonまたはRで記述され、カスタムモデルワークショップを介して追加されます。 保存された後、Composable MLでブループリントを変更するときにタスクを使用できます。 再トレーニングが不要な事前学習済みモデルをデプロイするには、カスタム推論モデルを使用します。

CV

交差検定を参照してください。

D


データドリフト

(MLOps)運用中のモデルの予測値を作成するために使用される新しい推論データの値と、展開されたモデルのトレーニング用として当初使用されたトレーニングデータとの相違点。 予測モデルは、トレーニングデータのパターンを学習し、その情報をもとに新しいデータのターゲット値を予測します。 トレーニングデータと本番データが時間の経過とともに変化し、モデルの予測力が低下すると、モデル周辺のデータがドリフトしていると言及されます。 データドリフトは、データ品質の問題、特徴量の構成の変化、さらにはターゲット特徴量のコンテキストの変化など、さまざまな理由で発生します。

データ管理

DataRobot内でのデータのロード、クリーニング、変換、保存を含む包括的な意味で使われる用語。 また、データを収集、保存、使用、および削除する際に企業が従う慣行も指します。

データの準備

(旧Paxata)DataRobotツールを使用すると、機械学習用に複数のソースからデータを収集、調査、準備できます。

データプレパレーション

このプロセスは、元のデータを機械学習アルゴリズムが実行できるポイントに変換して、インサイトの明確化と予測の実行を可能にします。 「データ前処理」とも呼ばれます。

Data Prepライブラリ

(Data Prep)データセット(Data Prepプロジェクトから公開するAnswerSetを含む)の追加と管理を行うData Prepのコンポーネント(およびページ)。 Data Prepウィンドウの左上にあるライブラリを選択すると、ライブラリにアクセスできます。 さらにData Prepライブラリでは、データセットのエクスポート、自動化の設定、新しいバージョンの追加、データセットのプロファイルの作成を行うことができます。

Data Prepプロジェクト

(Data Prep)プロジェクトを含むデータ準備コンポーネント(およびページ)。 Data Prepウィンドウの左上にあるプロジェクトを選択すると、すべてのプロジェクトにアクセスできます。 プロジェクトページでは、自分のプロジェクトだけでなく、Data Prepインスタンスの他のユーザーのプロジェクトにアクセスし、管理することができます。 プロジェクトページで新規プロジェクトを作成したり、ライブラリページでデータセットをアップロードしてプロジェクトを作成することができます。

データ品質処理レポート

A model Leaderboard tab (Describe > Data Quality Handling Report) that analyzes the training data and provides the following information for each feature: feature name, variable type, row count, percentage, and data transformation information.

DataRobotユーザーモデル(DRUM)

Python、R、およびJavaカスタムモデルおよびタスクをローカルでテストできるツール。 このテストによって、アップロードする前にDataRobotでカスタムモデルが正しく実行され、予測が作成されることを確認できます。

DataRobot University(DRU)

ビジネス上の問題を解決するための実践的なデータサイエンス教育を提供します。 DRUは、ガイド付き学習、自習型およびインストラクター主導のコース、ラボ、および認定プログラムを、多くのトピックとスキルレベルにわたって提供しています。

データセット

特定の時点におけるデータ(1つのファイルまたは1つのデータソースのコンテンツ)。 1つのデータソースで複数のデータセットを生成することができます。 AIカタログでのデータソースの数は各データセットで1つです。Data Prepでは、複数のデータソースから1つのデータセットを生成できます。 AIカタログにおけるデータセットとは、カタログバージョンレコードと共に保存されたマテリアライズ済みデータです。 1つのエントリに複数のカタログバージョンレコードが関連付けられている場合、DataRobotでデータが再読み込みされたか最新の状態に更新されたことを示します。 古いバージョンは既存のプロジェクトをサポートするために保存されます。新しいプロジェクトでは、最新のバージョンが使用されます。 データセットは、次のいずれかの状態です。

  • 「スナップショット作成済み」(マテリアライズ済み)データセットは、以前に取得および保存されたデータの不変スナップショットです。
  • 「リモート」(または未マテリアライズ)データセットは、データがオンデマンドで取得された場所(AIカタログ)で設定されています。

データ接続

データベースへの設定済みの接続(名前、特定のドライバー、およびJDBC URLが含まれます)。 DataRobotにデータ接続を登録すると容易に再使用することができます。 1つのデータ接続には1つのコネクタがありますが、複数のデータソースを設定することができます。

データソース

バックエンドのデータ(指定したエンドポイント内のデータの場所)への設定済み接続。 データソースは、SQLクエリーまたは選択されたテーブルおよびスキーマデータを使用して、モデリングまたは予測に使用するデータ接続から抽出するデータを指定します。 たとえば、HDFS上のファイルへのパス、S3に保存されているオブジェクト、およびデータベース内のテーブルとスキーマなどを指定できます。 1つのデータソースには1つのデータ接続と1つのコネクタがありますが、複数のデータセットを設定することができます。 時間の経過と共にデータソースの特徴量と列が変化する可能性は低いのですが、行はデータの追加または削除に応じて変化します。

データ段階

大規模なデータセットのマルチパートアップロードをサポートする中間ストレージ。大量のデータを処理するときに失敗する可能性を減らします。 アップロード時に、データセットは部分的にデータステージにアップロードされ、データセット全体が完成して完成すると、AIカタログまたはバッチ予測にプッシュされます。 最初の部分がデータステージにアップロードされた後はいつでも、システムはバッチ予測にデータステージからのデータを使用して予測を入力するように指示できます。

ディープラーニング

ニューラルネットワークアルゴリズムの「レイヤー」の一部を介してデータを実行するアルゴリズムのセット。各レイヤーは、簡略化されたデータ表現を次のレイヤーに渡します。 ディープラーニングアルゴリズムはDataRobotのVisual Artificial Intelligence (AI)機能に不可欠であり、その処理はトレーニングダッシュボードを視覚化することにより表示できます。

デプロイインベントリ

(MLOps)デプロイを管理するための中心ハブ。 デプロイページにあるインベントリは、モデルの運用に関与するすべての利害関係者の調整ポイントとして機能します。 インベントリから、デプロイされたモデルのパフォーマンスを監視し、必要に応じてアクションを実行することで、単一のポイントからアクティブにデプロイされたすべてのモデルを管理できます。

検出/セグメンテーション

(Visual Artificial Intelligence (AI))追加処理を目的とした入力画像データのサブセット選択を含むコンピュータービジョンの手法(イメージセット内の1つまたは複数のイメージ、イメージ内の領域など)。

ダウンロードタブ

A model Leaderboard tab (Predict > Downloads) where you can download model artifacts.

ダウンサンプリング

スマートダウンサンプリングを参照してください。

ドライバー

(AIカタログ)DataRobotアプリケーションがデータベースとやり取りできるようにするソフトウェア。各データ接続は、(管理者が作成およびインストールした)1つのドライバーに関連付けられています。 ドライバーの設定には、DataRobot内のJARファイルストレージの場所、およびそのドライバーに関連付けられているその他の依存ファイルが保存されます。 DataRobotは、JDBCドライバーをサポートします。

E


EDA(探索的データ分析)

データセットの解析および主要な特性のサマリーを作成するためのDataRobotのアプローチ。 一般的に、EDAには2つの段階があります。

  • EDA1は、データのサンプルに基づくサマリー統計を提供します。 EDA1では、DataRobotはデータをカウント、分類し、(該当する場合)データに自動的に特徴量の変換を適用します。
  • EDA2は、EDA1で収集された統計の再計算ですが、ホールドアウトを除くデータセット全体を使用します。 この解析結果は、モデル構築に使用される基準です。

アンサンブルモデル

ブレンダーを参照してください。

環境

カスタムタスクを実行するDockerコンテナ。

ESDA

Exploratory Spatial Data Analysis (ESDA) is the exploratory data phase for Location AI. DataRobot Location AIは、DataRobot AutoML環境内でESDAを実行するためのさまざまなツールを提供します。これには、ジオメトリマップの視覚化、カテゴリー型/数値主題図、大規模な地理空間データセットのスマートな集約などが含まれます。

Eureqa

Model blueprints for Eureqa generalized additive models (Eureqa GAM), Eureqa regression, and Eureqa classification models. これらのブループリントは、独自のEureqa機械学習アルゴリズムを使用して、予測精度と複雑さのバランスをとるモデルを構築します。

EWMA(指数加重移動平均)

最新のデータポイントにより大きな加重と重要性を与え、時間の経過に伴うトレンドの方向を測定する移動平均。 「指数関数的」な側面は、以前の入力の加重係数が指数関数的に減少することを示します。 そうしないと、非常に新しい値が古い値よりも分散に影響を与えなくなるため、これは重要です。

外部ステージ

外部ステージ外部ステージは、Snowflakeのデータのロードとアンロードに使用されるSnowflake環境の外側のクラウドの場所です。 クラウドの場所は、AmazonS3またはMicrosoft Azureストレージのいずれかです。

F


公平性スコア

(バイアスと公平性)公平性メトリックに基づいた、保護されたクラスに対するモデルの公平性の数値計算。

公平性のしきい値

(バイアスと公平性)公平性のしきい値モデルが各保護クラスの適切な公平性の範囲内で機能するかどうかを示す指標。 保護クラスの公平性スコアやパフォーマンスには影響しません。

公平性の値

(バイアスと公平性)最も好ましい保護されたクラス(最も高い公平性スコアを持つクラス)に対して正規化された公平性スコア。

好ましい結果

(バイアスと公平性)モデルにとって好ましい結果として扱われるターゲットの値。 二値分類モデルからの予測は、保護されたクラスにとって好ましい結果(良い/好ましい)または好ましくない結果(悪い/望ましくない)として分類できます。

FDW

特徴量の派生ウィンドウを参照してください。

特徴量

「特徴量」または「特徴量変数」とも呼ばれるデータセットの列。ターゲット特徴量は予測するデータセットの列名です。

特徴量の派生ウィンドウ

(時間認識)FDWとも呼ばれます。 モデリングデータセットの特徴量を派生させるためにモデルが使用する過去の値のローリングウィンドウ。 たとえば、予測ポイントに関連するウィンドウは、モデルが予測に使用する最近の値の数を定義します。

特徴量探索

特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。 A relationship editor visualizes these relationships and the end product is additional, derived features that result from the created linkages.

特徴量ごとの作用

A model Leaderboard tab (Understand > Feature Effects) that shows the effect of changes in the value of each feature on the model’s predictions. 特徴量ごとの作用では、各特徴量とターゲットの間の関係性がモデルでどのように「理解」されているかを示すグラフが表示されます。特徴量は、特徴量のインパクトでソートされます。

特徴量エンジニアリング

データセットに追加で特徴量を生成し、その結果、モデルの精度と性能を向上させます。 時系列と特徴量探索はどちらも、機能の基礎として特徴量エンジニアリングに依存しています。

特徴量の抽出

(Visual Artificial Intelligence (AI))イメージ前処理(またはイメージ特徴量抽出およびイメージ前処理)を実行するモデルは、「イメージ特徴量抽出モデル」または「イメージ固有モデル」とも呼ばれます。

特徴量の抽出と削減(FEAR)

(時系列)時系列での特徴量の生成(ラグ、移動平均など)。 新しい特徴量を(すぐに)抽出し、抽出された特徴量のセットを(後で)減らします。 時系列の特徴量の派生を参照してください。

特徴量のインパクト

データセット内のどの特徴量がモデルの決定に最大のインパクトを与えるかを明らかにする測定値。 DataRobotでは、測定値はリーダーボードで視覚化されて報告されます。

特徴量の補完

(時系列)時系列データ準備ツール使用時にすべての特徴量(ターゲットとその他)で補完を可能にするためフォワードフィリングを使用するメカニズム。 それによって、欠損値がないデータセットとなります(フォワードフィルする値がない各系列の先頭の行送りの値は除く場合があります)。

特徴量セット

モデルの構築に使用されるデータセットからの特徴量のサブセット。 DataRobotは、EDA2中に、すべての有益な特徴量、リーケージのリスクがあるものを除く有益な特徴量、すべての元の特徴量の元のリスト、および縮小されたリストを含むいくつかのリストを作成します。 ユーザーは、プロジェクト固有のリストを作成することもできます。

Filtergram

(Data Prep)データを変換するためのフィルターと、データを可視化するためのヒストグラムの両方の機能を持つData Prep列ツール。 Filtergramでは、変換前、変換中、変換後のすべてのデータを可視化することができます。

フィッティング

モデルフィッティングを参照してください。

予測距離

(時間認識)予測ウィンドウ内での相対的な位置を示す一意な時間ステップ。 モデルは、各予測距離に1つの行を出力します。

予測ポイント

(時間認識)予測の作成元となるポイント。「今だったら…」ということを示す相対時間。DataRobotは、トレーニングデータ内のすべての潜在的な予測ポイントを使用してモデルをトレーニングします。 運用環境では、通常、直近の時間です。

予測値と実測値の比較

A model Leaderboard tab (Evaluate > Forecast vs Actual) commonly used in time series projects that allows you to compare how different predictions behave from different forecast points to different times in the future. Although similar to the Accuracy Over Time chart, which displays a single forecast at a time, the Forecast vs Actual chart shows multiple forecast distances in one view.

予測ウィンドウ

(時間認識)FWとも呼ばれます。 予測ポイントから開始し、将来の予測の範囲(予測距離)を定義します(「最も注目すべき時間範囲」)。その後、その範囲に対してモデルが最適化され、その範囲の平均でリーダーボード上でモデルが格付(ランキング)されます。

予測

(時間認識)時間に基づく将来の予測。最近入力された行を使用して将来の値を予測します。 Forecastingは予測のサブセットであり、観測値の傾向を使用して、期待される結果または期待される応答を特徴付けます。

フローズン実行

モデルの初期の小さなサンプルサイズベースの実行からパラメーター設定を「固定」するプロセス。 小さいサンプルに基づくパラメーター設定は、同じデータの大きいサンプルでもうまく機能する傾向があるためです。

FW

予測ウィンドウを参照してください。

G


ガバナンスレンズ

(MLOps)デプロイの社会的および運用的側面をまとめるデプロイページ上のDataRobotのデプロイインベントリとしてフィルタリングされた画面。 これらには、デプロイオーナー、モデルの構築方法、モデルの年齢、および信頼性のモニタリング状況などが含まれます。

GPU (graphics processing unit)

A mechanism for processing computational tasks. GPUs are GPUs are highly optimized to do mathematical calculations and great at parallelism, but only for less complex tasks. Deep learning specifically benefits from that since it's mainly batches of matrix multiplication, and these can be parallelized very easily.

ハイパーパラメーターに使用される網羅的な検索方法。

H


ホールドアウト

トレーニングおよび検証プロセス中にモデルが使用できないデータのサブセット。 最適なモデルを選択した後でのみ、モデルのパフォーマンスの最終的な見積もりにホールドアウトスコアを使用します。

信頼性

(MLOps)モデルが不確実な予測を行ったり、初めて見るデータを受信した場合に、リアルタイムで認識できるようにするために、ユーザーが定義したデプロイルールの設定。 データドリフトとは異なり、モデルの信頼性は時間の経過に伴う幅広い統計プロパティを処理しません。代わりに、個々の予測に対してトリガーされ、さまざまなトリガーに依存するルールを使用して目的の動作を設定できます。

I


画像データ

(Visual Artificial Intelligence (AI))デジタルイメージ(ビデオなど)のシーケンス、デジタルイメージのセット、単一のデジタルイメージ、および前記のいずれかの1つまたは複数の部分。 デジタル画像は、1つのファイルに格納されている画素(「ピクセル」)の整理されたセットを含むことがあります。 ラスター形式(TIFF、JPEG、GIF、PNG、BMPなど)、ベクトル形式(CGM、SVGなど)、複合形式(EPS、PDF、PostScriptなど)、およびステレオ形式(MPO、PNS、JPSなど)を始めとする適切な形式とタイプのデジタル画像ファイルを使用できます。

イメージ前処理

(Visual Artificial Intelligence (AI))コンピュータービジョン技法。 これには、画像の再サンプリング、ノイズ除去、コントラストの強調、およびスケーリング(スケール空間表現の生成など)の例が挙げられます。 抽出される特徴量を以下に示します。

  • 低レベル:元のピクセル、ピクセルの明度、ピクセルの色、グラデーション、テクスチャ、色ヒストグラム、運動ベクトル、エッジ、ライン、コーナー、リッジなど。
  • 中レベル:形状、表面、体積など。
  • 高レベル:オブジェクト、シーン、イベントなど。

推論データ

(予測)実用的なインサイトを見つけるために、過去のデータセットから構築されたアルゴリズムモデルを適用することでスコアリングされたデータ。 スコアリングデータも参照してください。

サンプル内予測

(予測)トレーニングセット外でトレーニングされたモデル(検定と、場合によってはホールドアウト)。 DataRobotは、デフォルトで設定されたトレーニングの64%を使用します。 64%以上のサンプルサイズでモデルがトレーニングされた場合、DataRobotは、サンプル内予測がそのスコアに使用されていることを示すアスタリスクで 検定 スコアにマークします。 80%以上のデータでトレーニングする場合、 ホールドアウト スコアもアスタリスク付きになります。 スタックされた(アウトオブサンプル)予測と比較します。

不規則的データ

(時間認識)一定の間隔および時間ステップが検知されないデータ。

K


KA

事前に既知の特徴量を参照してください。

事前に既知の特徴量

(時間認識)KAとも呼ばれます。 事前に値が分かっていて、事前に知り得ない値として設定する必要のない特徴量(休日など)。 例としては、翌週に製品が販売されることがわかっている場合、事前に価格情報を提供できます。

L


リーダーボード

プロジェクトのメトリックに従ってランク付けされた、プロジェクトのトレーニング済みブループリント(モデル)のリスト。

リーケージ

ターゲットリーケージを参照してください。

学習曲線

データセットのサイズを増やす価値があるかどうかを判断するためのグラフ。 学習曲線グラフは、パフォーマンスが最も優れたモデルについて、サンプルサイズが変化するにつれモデルパフォーマンスがどのように変化するかを示します。

レンズ

(Data Prep)プロジェクトの特定のステップで、データセットのスナップショットを生成できるようにするData Prepの機能。 AnswerSetに公開するプロジェクトステップを識別するためのレンズを作成します。

リフトチャート

モデルがターゲットの母集団をどの程度適切に分割しているか、そしてターゲットを予測することができるかを示し、モデルの有効性を視覚化します。

リンクキー

(特徴量探索)結合して関係性を作成するためのキーとして使用されるプライマリーデータセットの機能。

Location AI

DataRobot's support for geospatial analysis by natively ingesting common geospatial formats and recognizing coordinates, allowing ESDA, and providing spatially-explicit modeling tasks and visualizations.

ログ

A model Leaderboard tab (Describe > Log) that displays the status of successful operations with green INFO tags, along with information about errors marked with red ERROR tags.

M


機械学習運用

MLOpsを参照してください。

Majority class

If you have a categorical variable (e.g., true/false or cat/mouse ), the value that's more frequent is the majority class. For example, if a dataset has 80 rows of value cat and 20 rows of value mouse, then cat is the majority class.

「予測を作成」タブ

A model Leaderboard tab (Predict > Make Predictions) that allows you to make predictions before deploying a model to a production environment.

管理エージェント

(MLOps) MLOpsエージェントのtarballに含まれているダウンロード可能なクライアント(開発者ツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を管理することができます。 このツールは、あらゆるタイプのインフラストラクチャへのモデルデプロイを自動化する標準的なメカニズムを提供します。 管理エージェントは、デプロイの正常性とステータスに関する最新情報をAPI経由で定期的に送信し、それをMLOpsイベントとして [サービスの正常性] ページで報告します。

手動

手動DataRobotがEDA2を完了し、モデリングのためのデータを準備しますが、モデル構築は実行しないモデリングモードです。 ユーザーが構築する特定のモデルをモデルリポジトリから選択します。

マテリアライズ済み

(AIカタログ)マテリアライズ済みデータは、DataRobotがデータアセットから抽出して、コピーをカタログに保存しているデータです。 スナップショットを参照してください。

メタデータ

(AIカタログ)データアセットの詳細(作成日、変更日、特徴量の数と型、スナップショットのステータスなど)。

指標

最適化指標を参照してください。

マイノリティークラス

If you have a categorical variable (e.g., true/false or cat/mouse ), the value that's less frequent is the minority class. For example, if a dataset has 80 rows of value cat and 20 rows of value mouse, then mouse is the minority class.

MLOps(Machine Learning Operations)

(MLOps)本番環境でMLアプリケーションを迅速にデプロイおよび管理するための、スケーラブルで管理された手段。

MLOpsエージェント

(MLOps) MLOpsエージェントのtarballに含まれている2つのダウンロード可能なクライアントのうちの1つ(*開発者ツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を監視および管理することができます。 監視エージェント管理エージェントを参照してください。

モデル/モデリング

新しいデータをスコアリングできるトレーニングされたMLパイプライン。 モデル—記述的、予測的、規範的—はデータ分析の基礎となります。 モデリングでは、データからインサイトを抽出し、それを使用することでより適切なビジネス上の意思決定が可能になります。 アルゴリズムモデルは、トレーニングデータに基づいて、ターゲット特徴量に当てはまる可能性が高い結果を示します。 それらは関係性の表現を構築し、将来収集する同様のデータに適用できる、データセット内のすべての異なる特徴量間のパターンを引き出し、それらのパターンと関係性に基づいて決定を下すことができます。

モデル比較

A Leaderboard tab that allows you to compare two models using different evaluation tools, helping identify the model that offers the highest business returns or candidates for blender models.

モデルフィッティング

トレーニングされたデータと同様のデータをどれだけ適切に一般化するかの指標。 適切に適合されたモデルは、より精度の高い結果を生成します。 過剰適合されたモデルは、データと過剰に一致します。 適合が不十分なモデルは、十分に一致しません。

モデル情報

A model Leaderboard tab (Describe > Model Info) that displays an overview for a given model, including model file size, prediction time, and sample size.

モデルパッケージ

(MLOps)モデルレジストリに保存された関連付けされたメタデータを含むアーカイブ済みモデルアーティファクト。 モデルパッケージはカスタムモデルのデプロイなどによって、手動または自動で作成できます。 モデルパッケージをデプロイ、共有、および完全にアーカイブできます。

モデルレジストリ

(MLOps)DataRobotで使用される様々なモデルのための組織的なハブ。 モデルは、デプロイ可能なモデルパッケージとして登録されます。登録には、使用可能な各パッケージがリストされています。 各パッケージは、そのモデルのソースに関係なく同じように機能します。 モデルレジストリには、カスタムモデルを作成してデプロイできるカスタムモデルワークショップも含まれます。 モデルパッケージはモデルの種類に応じて、手動または自動で作成できます。

モデルのスコアリング

データのパーティションに最適化指標を適用し、モデルのパフォーマンスを評価するために使用できる数値スコアを割り当てるプロセス。

モデリングデータセット

(時間認識)元のデータセットを変換することで、データを将来の値に事前にシフトし、時系列のラグ特徴量を生成して、時系列分析のメタデータを計算します。 一般に特徴量派生と呼ばれ、時系列で使用されますが、OTVでは使用されません。 特徴量派生プロセスで使用される演算子および作成された特徴量名のリストについては、時系列特徴量エンジニアリングのリファレンスを参照してください。

モデリングモード

DataRobotがモデルの構築に使用するトレーニングセットのサンプルパーセンテージを制御する設定。 DataRobotは、オートパイロット、クイック(デフォルト)、手動、および包括的モードの4つのモデリングモードを提供します。

監視エージェント{ data-category=mlops }

(MLOps) MLOpsエージェントのtarballに含まれているダウンロード可能なクライアント(開発者ツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を管理することができます。 この機能により、これらのモデルによる予測や情報を、デプロイの一部として報告することができます。 You can use this tool to monitor accuracy, data drift, prediction distribution, latency, and more, regardless of where the model is running.

単調モデリング

特定のXGBoostモデルに、特定の特徴量とターゲットの間の単調な(常に増加または常に減少する)関係性のみを学習させる方法。

多クラス

分類を参照してください。

多ラベル

データセットの各行が1つ、複数、またはゼロのラベルに関連付けられている分類タスク。 一般的な多ラベル分類の問題は、テキストの分類(映画は「犯罪」と「ドラマ」の両方である)と画像の分類(家と車が含まれる画像)です。

マルチモーダル

同一モデル内で、複数の特徴量の型を同時にサポートするモデルタイプ。

複数系列

(時間認識)入力特徴量の共通セットに基づいて複数の時系列を含むデータセット(複数の店舗の販売量を予測する場合など)。

N


ナイーブモデル

ベースラインモデルを参照してください。

AIアプリビルダーで作成したアプリケーション

A no-code interface to create AI-powered applications that enable core DataRobot services without having to build models and evaluate their performance. アプリケーションは簡単に共有でき、ユーザーはアプリケーションを使用するための完全なDataRobotライセンスの所有権を取得する必要はありません。

N-gram

一連の単語。Nは単語の数です。 たとえば、「機械学習」は2グラムです。 テキスト特徴量は、自然言語処理(NLP)の準備としてn-gramに分割されます。

ノートブック

An interactive, computational environment that hosts code execution and rich media. DataRobot provides its own in-app environment to create, manage, and execute Jupyter-compatible hosted notebooks.

ナウキャスティング

(時間認識)過去と現在のデータに基づいてターゲットの現在の値を予測する時系列モデリングの方法。 技術的には、開始と終了時刻が0(現在)である予測ウィンドウのことです。

O


オフセット

モデリングで固定要素(Generalized Linear Modelまたは勾配ブースティングマシンモデルの係数1)として取り扱う必要のある特徴量。 オフセットは、価格制限を組み入れるため、または既存のモデルをブーストするために使用することがあります。

最適化指標

モデルがどの程度実測値を予測しているかを判断するために、DataRobotで使用される誤差指標。 ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。

OTV

(時間認識)時間外検定とも呼ばれます。 時間に関連するデータをモデル化する手法。 OTVでは、時系列のような予測は行われません。 その代わりに、個々の各行のターゲット値を予測します。

過剰適合

過剰適合モデルが学習データに適合しすぎたために、未知のデータに対して正確な性能を発揮できなくなってしまうこと。 これは、モデルがトレーニングデータを長時間トレーニングしすぎて、その「ノイズ」を学習(およびモデル化)し、モデルを一般化できない場合に発生します。

P


パーティション

精度を最大化するために分解されたトレーニングデータのセグメント。 データセットのセグメント(分割)。 トレーニング検定交差検定ホールドアウトも参照してください。

クラスごとのバイアス

A model Leadboard tab (Bias and Fairness > Per-Class Bias) that helps to identify if a model is biased, and if so, how much and who it's biased towards or against. Bias and Fairness settings must be configured.

PID(プロジェクト識別子)

プロジェクトを一意に識別するために使用される内部識別子。

PII

氏名、写真、自宅住所、SSN(社会保障番号)またはその他の識別番号、生年月日などの個人を特定できる情報。 DataRobotは、特定の種類の個人データの検出を自動化して、この情報がデータセットに誤って含まれることに対する保護レイヤーを提供します。

ポータブル予測サーバー(PPS)

(MLOps)DataRobotモデルのパッケージ(.mlpkgファイル)を自己完結型のDockerイメージとして配布する DataRobotの実行環境。 主な設置環境から切り離して運用することができます。

予測

(時間認識)時系列モデリング以外の場合。 1つの行の情報を使用して、その行のターゲットを決定します。 予測では、説明的な特徴量を使用して期待される出力または期待される応答(たとえば、将来の特定のイベント、性別、不正行為など)を特徴付けます。

予測データ

(MLOps、予測)予測リクエストおよびモデルからの結果を含むデータ。

予測環境

(MLOps、予測) DataRobotの外部にあるシステムでデプロイ予測を管理するように設定された環境。 予測環境では、デプロイの権限および承認のプロセスを設定できます。 設定が完了すると、ポータブル予測サーバーで実行されているDataRobotモデルや、MLOps監視エージェントによって監視されるリモートモデルで使用する予測環境を指定することができます。

予測の説明

予測を左右する要因を行単位で可視化したもの。変数がモデルに与える影響を定量的に示し、特定のモデルが特定の予測を行った理由を回答します。 モデルが特定の予測を行った理由を理解して、予測が意味があるかどうかを検定することが可能になります。 SHAPXEMPも参照してください。

予測の説明

Prediction intervals help DataRobot assess and describe the uncertainty in a single record prediction by including an upper and lower bound on a point estimate (e.g., a single prediction from a machine learning model). The prediction intervals provide a probable range of values that the target may fall into on future data points.

予測ポイント

予測を行った時点、または予測を行う時点。 実稼働モデルに基づいて予測ポイントを計画します(「更新の1か月前」や「ローン申込書の提出時期」など)。 定義したら、先読みバイアスを回避するためにトレーニングデータにその項目を作成します。 特徴量探索で予測ポイントを定義すると、派生特徴量は、そのポイントより前のデータのみ使用します。

プライマリーデータセット

(特徴量探索)プロジェクトを開始するために使用されるデータセット。

プライマリー特徴量

(特徴量探索)プロジェクトのプライマリーデータセットの特徴量。

プロジェクト

トレーニングに使用されるソースであるデータセット、およびデータセットから構築されたモデルを含む参照可能なアイテム。 プロジェクトは、ホームページ、プロジェクトコントロールセンター、AIカタログから作成およびアクセスできます。 それらは、ユーザー、グループ、組織で共有することができます。

保護クラス

(バイアスと公平性)保護された特徴量の1つのカテゴリー値。

保護された特徴量

(バイアスと公平性)モデル予測の公平性を測定するためのデータセット列。 モデルの公平性は、データセットから保護された特徴量に対して計算されます。 「保護された属性」とも呼ばれます。

Q


クイック(オートパイロット)

A shortened version of the full Autopilot modeling mode that runs models directly at 64%. With Quick, the 16% and 32% sample sizes are not executed. DataRobot selects models to run based on a variety of criteria, including target and performance metric, but as its name suggests, chooses only models with relatively short training runtimes to support quicker experimentation.

R


格付表

A model Leaderboard tab (Describe > Rating Table) where you can export the model's complete, validated parameters.

リアルタイム予測

(予測)低レイテンシーが必要な場合に予測を作成する方法。 専用予測サーバーとスタンドアロン予測サーバーでのリアルタイムデプロイ予測用の予測APIを使用します。

受信者動作特性曲線

ROC曲線を参照してください。

連続値

連続する値(たとえば、1.7、6、9.8…)を予測する予測問題の一種。

規則的データ

(時間認識)データセット内の行が等間隔の時間グリッド上にある場合、そのデータは規則的なデータと言えます(たとえば、データセット全体を通して1時間ごとに1つの行がある場合)。

関係性

(特徴量探索)データセット間の関係性。 各関係性にはデータセットの1つのペアがあり、各データセットからの結合キーがあります。 キーは、データセットの1つまたは複数の列で構成されます。 両方のデータセットからのキーに順番が付けられ、キーには列の同じ番号が必要です。 キーの組み合わせは、2つのキーの結合方法を決定するために使用されます。

リモートモデル

(MLOps) DataRobot以外の外部予測環境で動作するモデル。多くの場合、MLOps監視エージェントが監視し、DataRobotに統計情報を報告します。

リポジトリ

問題の種類に応じて選択され、プロジェクトで利用可能なモデリングブループリントのライブラリ。 これらのモデルは、DataRobotによって選択および構築でき、ユーザーが実行することもできます。

ROC曲線

受信者動作特性曲線とも呼ばれます。 確率スケール上の任意のポイントで、選択したモデルに関する分類、パフォーマンス、統計を探索するのに役立つ視覚化データです。 DataRobotでは、視覚化はリーダーボードから利用できます。

役割

(AIカタログ)ロール—所有者、コンシューマー、エディター—は、特定のデータセットに対して各ユーザーに提供される機能を説明します。 これは、データソースまたはデータ接続を作成するユーザーとエンドユーザーが同じでない場合や、アセットの複数のエンドユーザーが存在する場合に使用すると便利です。

S


サンプルサイズ

モデルの構築に使用されるトレーニングデータ全体の割合。 パーセンテージは、選択したモデリングモードに基づくか、ユーザーが選択できます。

スコアリング

モデルのスコアリングスコアリングデータを参照してください。

スコアリングコード

(MLOps、予測)DataRobotのモデルをアプリケーション以外で使用する方法。 リーダーボードの一部のモデルでは、コマンドラインからデータのスコアリングに使用できるJavaコードを含むJARファイルをダウンロードして利用できます。

一部のモデルで利用可能な、Javaで動作するエクスポート可能なJARファイル。 スコアリングコードJARには、DataRobot APIと同じ予測計算ロジックが含まれます(コード生成メカニズムによって、生成プロセスの一部として各モデルの精度がテストされます)。

スコアリングデータ

(予測)実用的なインサイトを見つけるために、過去のデータセットから構築されたアルゴリズムモデルを新しいデータセットに適用。 一般的なスコアリング方法は、バッチスコアリングとリアルタイムスコアリングです。 「スコアリングされたデータ」(「推論データ」とも呼ばれる)は、スコアリングされているデータセットを指します。

季節性

(時間認識)1年、1週間、1日などの間の異なる時間で繰り返し観測される値の変動。周期性。 たとえば、温度は高い季節性を示します(夏に高く、冬に低くなり、日中は高く、夜間は低くなります)。

セカンダリーデータセット

(特徴量探索)プロジェクトに追加されるデータセットで、プライマリーデータセットとの関係性の一部となるもの。

セカンダリー特徴量

(特徴量探索)プロジェクトのセカンダリーデータセットから派生した特徴量。

セグメント化された分析

(MLOps)データのドリフトと精度の統計情報を、ユニークなセグメントの属性および値にフィルタリングするデプロイユーティリティ。 トレーニングや予測要求データの運用上の問題点を把握するのに有効です。

セグメント化されたモデリング

(時間認識)各セグメントのモデルを生成することにより、複数系列プロジェクトをモデル化する方法。 DataRobotは、各セグメント(セグメントチャンピオン)に最適なモデルを選択し、展開可能な単一の結合モデルにセグメントチャンピオンを含めます。

半規則的データ

(時間認識)ほとんどの時間ステップは規則的ですが、部分的に小さなギャップのあるデータ(週末を除く営業日など)は、半規則なデータになります。

セグメントID

(時間認識)複数系列プロジェクトのセグメントに系列をグループ化するために使用されるデータセットの列。 セグメントIDは、DataRobotがセグメントごとに個別のモデルを構築するセグメント化されたモデリングワークフローに必要です。 セグメント化されたモデリングも参照してください。

系列ID

(時間認識)複数系列プロジェクトのデータセットを系列に分割するために使用されるデータセットの列。 この列には、各行が属する系列を示すラベルが含まれています。 複数系列モデリングも参照してください。

サービスの正常性

(MLOps)予測要求に迅速かつ確実に応答するデプロイの能力に関するメトリクスを追跡するデプロイのパフォーマンス監視コンポーネント。 ボトルネックの特定や予測能力の評価に有効。

SHAP(Shapley値)

ツリーベース、ディープラーニング、線形ベースのモデルにおける予測説明の計算に用いる高速でオープンソースな手法。 SHAPは、各特徴量が平均とは異なる特定の予測にどの程度寄与するかを推定します。 SHAPは加法性があり、上位N個の特徴量がどれだけ予測に寄与しているかを簡単に確認できます。 予測の説明XEMPも参照してください。

スマートダウンサンプリング

A technique to reduce total dataset size by reducing the size of the majority class, enabling you to build models faster without sacrificing accuracy. スマートダウンサンプリングを有効にすると、すべての分析およびモデル構築は、ダウンサンプルデータ後の新しいデータセットサイズに基づいて行われます。

スナップショット

(AIカタログ)スナップショットは、データソースから作成されたアセットです。 たとえばデータセットの場合、これは特定の時点で取得されたデータベース全体または一部の(結合された)テーブルを表します。 これはライブデータベースから取得されますが、データの静的な読み取り専用のコピーが作成されます。 DataRobotでは、各データアセットタイプのスナップショットを作成します。ユーザーは、データをインポートするときにスナップショットを無効にできます。

速度対精度

速度対精度分析プロットは、予測実行時間と予測精度のトレードオフを示し、オーバーヘッドの最も低いモデルを選択するのに役立ちます。

安定性

A model Leaderboard tab (Evaluate > Stability) that provides an at-a-glance summary of how well a model performs on different backtests. このチャートのバックテスト情報は、モデル情報タブに表示される情報と同じです。

スタック予測

(予測)異なるサブセットに複数のモデルを構築する方法。 行の予測は、そのデータをトレーニングから除外したモデルを使用して作成されます。 この方法により、各予測は効果的に「アウトオブサンプル」予測になります。 See an example in the predictions documentation. 「サンプル内」予測と比較します。

定常性

(時間認識)系列の平均が時間の経過とともに変化しないこと。 定常的な系列にはトレンドや季節的な変動がありません。

教師あり学習

ラベル付きデータを使用した機械学習。各レコードのデータセットには、ターゲット特徴量の既知の値が含まれています。 トレーニング中にターゲットを知ることにより、モデルは他の特徴量がターゲットにどのように関連しているかを「学習」し、新しいデータを予測することができます。

T


ターゲット

予測対象データセットの列の名前。

ターゲットリーケージ

予測時に値が不明な特徴量を使用して得た結果(たとえば、トレーニングデータセットの「解約理由」の値を使用して顧客が解約するかどうかを予測した結果)。 モデルの特徴量セットの特徴量を含めると、予測に不適切な影響が生じ、過度に楽観的なモデルが生成されることがあります。

タスク

ML手法の一種で、データ変換にワンホットエンコーディングや推定処理にXGBoost分類子を使用して、ブループリントを定義します。 数百種類の標準タスクが用意されているほか、オリジナル(カスタム)タスクを定義することも可能です。

時系列

(時間認識)時間順にインデックスが付けられた一連のデータポイント。 通常、等間隔で連続して行われる一連の測定。

時系列分析

(時間認識)時系列データを分析して、有意な統計データやその他の特徴的なデータを抽出する手法。

時系列予測

(時間認識)過去に観測された値に基づいて、未来の値を予測するのに使用するモデル。 実際には、予測モデルは時系列機能を他のデータと組み合わせる場合があります。

時間ステップ

(時間認識)時系列の行間で検知された中央値の時間差。時間単位はDataRobotによって決定されます。 時間ステップは、1つの数値と1つの時間差単位で構成されます(15「分」など)。 ステップが検出されない場合、そのデータセットは不規則的とみなされ、時系列モデルは無効化されることがあります。

追跡エージェント

MLOpsエージェントを参照してください。

トレーニング

既知のターゲットに基づいてモデルを構築するプロセス。

トレーニングダッシュボード

A model Leaderboard tab (Evaluate > Training dashboard) that provides, for each executed iteration, information about a model's training and test loss, accuracy, learning rate, and momentum to help you get a better understanding about what may have happened during model training.

トレーニングデータ

モデルの構築に使用されるデータの部分(パーティション)。 検定交差検定ホールドアウトも参照してください。

転移学習

(Visual Artificial Intelligence (AI))単一のデータセットをトレーニングして、有用かつ他の学習にも適用できうる情報を抽出するプロジェクト手法。

トレンド

(時間認識)時間の経過に伴う増加または減少。 トレンドには、直線的なものと非直線的なものがあり、変動を示すこともあります。 トレンドを含む系列は定常的(静的)でありません。

チューニング

いくつかのハイパーパラメーターを変更し、データ上でアルゴリズムを再度実行し、パフォーマンスを比較して、どのハイパーパラメーターのセットが最も精度の高いモデルになるかを決定する試行錯誤のプロセス。 DataRobotでは、この機能は[高度なチューニング]タブから利用できます。

U


分析単位

(機械学習)予測を行う際の観測値。

無制限の多クラス

分類を参照してください。

未マテリアライズ

(AIカタログ)未マテリアライズデータは、DataRobotがプロファイル統計のためにサンプリングしたものの、保持しないデータです。 カタログにはデータへのポインターが格納され、データはプロジェクトの開始時またはバッチ予測を実行するときにユーザーのリクエストに応じて取得されます。

教師なし学習

既知の(ラベル付けされた)結果を参照せず、かつターゲットを指定せずにデータセットからパターンを推測する機能。 教師なし学習の種類としては、異常検知、外れ値検知、新規性検知、カスタリングが挙げられます。 異常検知では、DataRobotはデータセットで異常を検出するために教師なし学習を適用します。 クラスタリングでは、DataRobotは、データ内の自然グループを識別するために教師なし学習を使用します。

ユーザーのブループリント

ユーザーが作成して、共有と変更できるようにAIカタログに保存したブループリント(および追加メタデータ)。 これは、リポジトリまたはリーダーボードのモデルから使用できるブループリントとは異なりますが、どちらもユーザーブループリントの作成の基礎として使用できます。 ブループリントも参照してください。

V


検定

検証(またはテスト)パーティションは、トレーニングから除外され、モデルのパフォーマンスを評価するために使用されるデータのサブセクションです。 このデータはモデルを構築するのには使用されなかったため、偏りのないモデルの推定正解率を提供することができます。 モデルを選択する際には、通常検定の結果を比較します。 交差検定も参照してください。

特徴量

特徴量を参照してください。

Visual Artificial Intelligence (AI)

DataRobot's ability to combine supported image types, either alone or in combination with other supported feature types, to create models that use images as input. The feature also includes specialized insights (e.g., image embeddings, activation maps, neural network visualizer) to help visually assess model performance.

W


ワードクラウド

A model Leaderboard tab (Understand > Word Cloud) that displays the most relevant words and short phrases in word cloud format.

ワーカー

プロジェクトの作成、モデルのトレーニング、予測などに使用され、DataRobotプラットフォームを支える処理能力。 ワーカーは、タスクに割り当てられた処理能力を表します。 DataRobotでは、プロジェクトワークフローのさまざまなフェーズで、DSSワーカー(データセットサービスワーカー)、EDAワーカー、セキュアモデリングワーカー、クイックワーカーなどのさまざまな種類のワーカーが使用されます。

X


XEMP(eXemplarベースのモデル予測の説明)

すべてのモデルで機能する予測の説明を計算するための方法。 予測の説明SHAPも参照してください。

Z


Zスコア

(バイアスと公平性)保護された特徴量を含むクラスが、母集団全体の中で「統計的に有意」であるかどうかを測定する指標。


更新しました January 11, 2023
Back to top