用語集¶
DataRobot用語集は、DataRobotプラットフォームに関連する用語の簡単な定義を提供します。 これらの用語は、データからデプロイまで、機械学習のすべてのフェーズにまたがっています。
すべて データ モデリング 時間認識 予測 MLOps 生成AI
A¶
位置ごとの精度¶
モデルのリーダーボードタブ(評価 > 位置ごとの精度)。および、個々のモデル内の空間残差マッピングを提供するLocation AIのインサイト。
時系列の精度¶
モデルのリーダーボードタブ(評価 > 時系列の精度)。予測が時間とともにどのように変化するかを可視化します。
ACEスコア¶
交替条件付き期待値としても知られています。 特徴量とターゲットの相関関係を示す一変量の指標。 ACEスコアは、非線形関係性を検出できますが、単変量であるため、交互作用効果は検出しません。
実測値¶
予測結果を追跡できるMLモデルの実測値。 デプロイされたモデルの精度統計を生成するには、モデルの予測値と問題の実際の実測値を比較します。 予測データセットと実測値データセットの両方に関連付けIDが含まれている必要があります。これにより、データセット内の対応する行を照合して、モデルの精度を測定できます。
高度なチューニング¶
モデルの構築後に手動でモデルパラメーターを設定する機能。この機能を使用して、モデルのパフォーマンスを向上させるためのパラメーター設定の実験が可能です。
集計画像特徴量:¶
(Visual Artificial Intelligence (AI))画像特徴量のセットで、そのセットの個々の要素により画像が構成されます。 たとえば、画像から抽出された画像特徴量のセットには、以下を示す特徴量のセットが含まれる場合があります。
- 画像の個々のピクセルの色。
- 画像内でエッジが存在する場所。
- 画像内で面が存在する場所。
集計から、データ分析モデルの出力に対するその特徴量の影響を判断し、その影響をモデルの他の特徴量の影響と比較することができる場合があります。
AIカタログ¶
さまざまなオブジェクトタイプの定義およびそれらの関係性を含む登録済みオブジェクトコレクション。参照と検索が可能です。 カタログに格納される項目は、データ接続、データソース、データメタデータです。
AIM¶
探索的データ解析の第2フェーズ(EDA2)で、ターゲット特徴量との相互相関に基づいて特徴量の有用性を決定します。 そのデータは、オートパイロット中にモデリングに使用される「有用な特徴量」を決定します。
交替条件付き期待値¶
ACEスコアを参照してください。
異常検知¶
データの異常検知に用いられる教師なし学習の一種。 異常検知は外れ値検知や新規性検知とも呼ばれ、不規則性の割合が低いデータや大量のラベルのないデータを使用する場合に有効です。 教師なし学習も参照してください。
アプリ¶
AIアプリを参照してください。
ARIMA(自己回帰和分移動平均)¶
時系列モデルの一種で、ある系列のパターンのみに基づいて、その系列の将来の値を予測するモデル。
アセット¶
ユースケースのコンポーネントの1つで、ワークベンチ内で追加、管理、および共有できます。 コンポーネントには、データ、ベクターデータベース、エクスペリメント、プレイグラウンド、アプリ、ノートブックが含まれます。
関連付けID¶
予測データセットの外部キーとして機能する識別子です。これによって、実測値をデプロイ済みのモデルから予測された値と一致させることができます。 関連付けIDは、デプロイ済みのモデルの精度の監視に必要です。
AUC(曲線の下の領域)¶
可能性のあるすべてのしきい値を考慮し、性能をROC曲線上の単一の値に集約して表す二値分類の一般的な誤差指標。 これは、モデルの機能を最適化して1を0から分離することによって機能します。 曲線下の面積が大きいほど、モデルの精度は高くなります。
拡張知能¶
DataRobotの人工知能を強化したアプローチが、現在のモデル構築とデプロイ支援業務を拡大します。 DataRobotプラットフォームは、データ取込み、モデルのトレーニングと予測、モデルに依存しない監視と管理にいたる一連のAIのライフサイクルを完全に自動化して管理します。 ガードレールは、機械学習モデルやAIアプリケーションを作成する際のデータサイエンスのベストプラクティスを保証します。 ユーザーペルソナ全体の透明性を確保し、保存場所に関係なくデータを利用できます。これにより、慣行的なロックインを回避できます。
自動再トレーニング¶
スケジュールに基づいて、またはイベント(精度の低下やデータドリフトなど)に応じて運用モデルを更新する、MLOpsの再トレーニング戦略。 また、自動再トレーニングでは、DataRobotのAutoMLを使用して、新しいチャレンジャーモデルを作成し、その使用を推奨します。 これらの戦略を組み合わせることで、高精度が最大化され、かつタイムリーな予測が可能になります。
AutoML(Automated Machine Learning)¶
特定のユースケースで最もパフォーマンスの高いモデルを特定することを目的とし、モデリング用のデータセットの準備やモデル選択プロセスの実行に関連するタスクの多くを自動化した上で、生成したモデル全体のパフォーマンスを決定するソフトウェアシステム。 予測モデリングに使用されます。予測については 時系列も参照してください。
オートパイロット(フルオートパイロット)¶
DataRobot の「適者生存」モデリングモードで、指定されたターゲット特徴量に最適な予測モデルを自動的に選択し、増え続けるサンプルサイズで実行します。 つまり、初期段階では小さなサンプルサイズでより多くのモデルを実行し、上位モデルのみを次の段階に進めます。 フルオートパイロットでは、DataRobotは(デフォルトで)全データの16%でモデルを実行し、上位16モデルを進めてから、32%でモデルを実行します。 その実行から上位8つのモデルが、データの64%(または500MBのデータのどちらか少ないほう)を使用してDataRobotが実行されます。 クイック(オートパイロット)、包括的および 手動も参照してください。
AutoTS(自動化された時系列)¶
特徴量化、モデルの仕様、モデルのトレーニング、モデルの選択、検定、予測の生成など、予測モデルの構築に必要なすべてまたはほとんどのステップを自動化するソフトウェアシステム。 時系列も参照してください。
平均ベースライン¶
特徴量派生ウィンドウ内のターゲットの平均(時系列モデリング)。
B¶
バックテスト¶
時間認識における交差検定に相当する検定方法。 しかし、交差検定とは異なり、バックテストでは、データセットからランダムな行を選択するのではなく、特定のピリオドや期間を選択してテストに使用して、「トライアル」を作成できます。
ベースラインモデル¶
ナイーブモデルとも呼ばれます。 生成されたMLモデルまたは時系列モデルが、基本的な非MLモデルよりも高い精度で学習していることを確認するための比較ポイントとして使用される単純なモデル。
たとえば、連続値プロジェクト用に生成されたMLモデルは、ターゲットの平均値や中央値を予測するベースラインモデルよりも優れたパフォーマンスを発揮する必要があります。 時系列プロジェクト用に生成されたMLモデルは、最新の実測値を使用して将来を予測する(つまり、今日の実測値を明日の予測値とする)ベースラインモデルよりも優れたパフォーマンスを発揮する必要があります。
時系列プロジェクトの場合、ベースラインモデルを使用してMASE指標を算出します(ベースラインモデルに対するMAE指標の比率)。
バッチ予測¶
大規模なデータセットで予測を作成する方法で、入力データを渡すと各行の予測結果が得られます。予測結果は出力ファイルに書き込まれます。 ユーザーは、予測インターフェイスの経由でMLOpsによるバッチ予測を行うか、バッチ予測APIを使用して予測を自動化できます。 予測データのソースと宛先を指定し、予測が実行される時期を決定することで、バッチ予測ジョブをスケジュールします。
バイアス軽減¶
保護された特徴量においてクラス間のバイアスを低減することを目的とした前処理または後処理タスクでブループリントを補強します。 バイアス軽減はモデルのリーダーボードタブ(バイアスと公平性 > バイアス軽減)でもあり、オートパイロットが終了した後、軽減手法を適用できます。
バイアス対精度¶
バイアス対精度チャートは、予測精度と公平性の間のトレードオフを表しており、保護された特徴量に関する各モデルの精度スコアと公平性スコアの手動で記録する必要がなくなります。
「ブラインド履歴」¶
「ブラインド履歴」は、最近のデータ(たとえば、 「直近」 は常に1週間前である場合があります)へのアクセスの遅れによって生じたギャップを補います。 これは、特徴量派生ウィンドウで指定された値のうち小さい方から予測ポイントまでの期間として定義されます。 ギャップが0の場合は「今日とそれ以前のデータを利用」、ギャップが1の場合は「昨日からのデータを利用」というふうになります。
アンサンブル¶
2つから8つのモデルの予測を組み合わせることで、精度が高まる可能性があるモデル。 DataRobotでは、オートパイロットの一部として、通常のリーダーボードモデル(AVG、GLM、ENETアンサンブル用)の上位3つに基づいて、アンサンブルモデルを自動作成するように設定できます。 アンサンブルモデルは手動で作成することもできます。
ブループリント¶
入力された予測変数と目標値を、モデルに変換するために必要な多くのステップをグラフィック表示します。 ブループリントは、前処理のステップ、アルゴリズム、後処理など、モデルを学習させる際のエンドツーエンドの手順の概要を表します。 ブループリント内の各ボックスは、複数手順を表す場合があります。 リーダーボードでモデルをクリックすると、ブループリントのグラフィック表現を表示できます。 ユーザーのブループリントも参照してください。
C¶
「運用化できない」期間¶
「運用化できない」期間とは、予測ポイントの直後から予測ウィンドウの開始までの空白期間を指します。 この期間は、短すぎるため有用ではありません。 たとえば、明日必要な人員を予測することは、その予測に基づいた行動をとるには遅すぎるかもしれません。
カタログ¶
AI カタログを参照してください。
Centroid¶
教師なし学習を使用して生成されたクラスターの中心。 セントロイドはクラスターの多次元平均であり、その寸法は観測地(データポイント)です。
CFDS(カスタマーフェーシングデータサイエンティスト)¶
DataRobotの担当者が、責任を持ってユーザーと潜在的なユーザーの技術的な成功をサポートします。 CFDSは、DataRobotの完全なインテグレーションのためのデータサイエンス問題の構造化などのタスクを支援します。 CFDSは、ユーザーの成功を確実にすることに情熱を注いでいます。
チャレンジャーモデル¶
現在配備されているモデル(「チャンピオン」モデル)と比較することで、デプロイ後も継続的に比較可能なモデル。 デプロイされたモデルをシャドーイングするためにチャレンジャーモデルを提示し、チャンピオンモデルで行われた予測を再実行して、より適合性の高い優れたDataRobotモデルがあるかどうかを判断します。
チャンピオンモデル¶
デプロイ(予測)またはセグメント化されたモデリング用にDataRobotが推奨するモデル。
MLOpsでは、デプロイ用に選択したチャンピオンを自分で置き換えることも、自動再トレーニングを設定することもできます。自動再トレーニングでは、DataRobotはチャレンジャーモデルをチャンピオンモデルと比較し、チャレンジャーがチャンピオンを上回っている場合はチャンピオンモデルを置き換えます。
セグメント化されたモデリングワークフローでは、DataRobotは各セグメントのモデルを構築します。 DataRobotは、各セグメントに最適なモデル(セグメントチャンピオン)を推奨しています。 セグメントチャンピオンは、複合モデルにロールアップします。 セグメントごとに、チャンピオンとして異なるモデルを選択できます。これは、結合モデルで使用されます。
チャネル¶
あるモジュールの出力ポートと別のモジュールの入力ポートの間の接続。 1つのモジュールの出力ポートからチャネルを介した別のモジュールの入力ポートへのデータの流れ。それらを結ぶ線で視覚的に表されます。
チャット¶
単一の LLMブループリントに基づいてLLMエンドポイントにプロンプトを送信(その結果、LLMペイロードを送信)し、LLMからレスポンスを受信します。 この場合、以前のプロンプト/レスポンスのコンテキストがペイロードとともに送信されます。
チャンキング¶
非構造化テキストの本文を取得し、より小さな非構造化テキスト (トークン)に分割するアクション。
引用¶
LLMレスポンスの生成中に使用される ベクターデータベースからのテキストのチャンク。
分類¶
値を離散的な最終結果またはクラスに分類する一種の予測問題。 二値分類 問題は、予測しようとしているものが2つのクラス(「Yes」または「No」など)のいずれかである可能性があるデータセットです。 多クラス分類 は、3つ以上の結果(「購入」、「販売」、または「保留」など)が考えられる分類問題です。 無制限の多クラス は、クラス数が無制限のターゲット特徴量を持つプロジェクトを処理する機能です。個々のクラスの上限しきい値と、しきい値以上のクラス数を無制限にサポートする多クラス集計の両方に対応します。 連続値も参照してください。
クラスタリング¶
同様のデータのグループ化と自然セグメントの識別に使用される教師なし学習の形式。
係数¶
モデルのリーダーボードタブ(説明 > 係数)。モデルの改善や最適化に役立つ情報を視覚的に表示します。
統合されたモデル¶
時系列セグメント化されたモデリングのワークフローで最終的に生成されたモデル。 セグメントモデリングでは、DataRobotはセグメントごとにモデルを構築し、各セグメントのチャンピオンモデルを1つのモデルに統合して、デプロイできるようにします。
共通イベント¶
週のデータの大部分が特定のデータポイントである場合、そのデータポイントは共通イベントになります(たとえば、通常の営業日と営業時間は共通イベントですが、不定期の週末に発生するデータポイントは非共通イベントです)。
コンプライアンスドキュメント¶
モデル開発について自動生成されるドキュメント。規制当局の検証に使用できます。 このドキュメントは、効果的なモデルリスク管理の構成について包括的なガイダンスを提供します。
Composable ML¶
データサイエンティスト向けに設計されたコード中心の機能。カスタムの前処理やモデリング手法を適用して、モデルトレーニングのブループリントを作成することができます。 組み込みタスクやカスタムタスクを使って、新しいブループリントを作成し、さらにDataRobotの他の機能と連携させることで、機械学習パイプラインを補強・改善することができます。
包括的¶
モデルの精度を高めるため、オートパイロットの最大サンプルサイズですべてのリポジトリブループリントを実行するモデリングモード。
コンピュータービジョン¶
画像データを分析および解釈を目的としたコンピューターシステムの使用(Visual Artificial Intelligence (AI))。 一般的に、コンピュータービジョンツールは、幾何学の原理を組み込んだモデルを使用して、コンピュータービジョンドメイン内の特定の問題を解決します。 たとえば、コンピュータービジョンモデルをトレーニングして、オブジェクト認識(オブジェクトのインスタンスや画像内のオブジェクトクラスの認識)、識別(画像内のオブジェクトの個々のインスタンスの識別)、検出(画像内の特定のタイプのオブジェクトやイベントの検出)などを実行することができます。
コンピュータービジョンツール/技法¶
ツール(たとえば、モデル、画像の前処理、特徴の抽出、検出/セグメンテーション機能を実行するシステム)。
混同行列¶
実測値と予測値を比較した表。 「混同行列」という名前は、モデルが2つの分類を混同している場合(1つのクラスをもう1つのクラスと混同してしまう場合)、行列で表現することによってわかりやすくすることに由来します。 混同行列は、ROC曲線、Eureqa、および多クラスモデルの視覚化のための混同行列の一部として利用できます。
接続インスタンス¶
ソースシステムへの接続方法に関するメタデータが設定されている接続(Snowflake接続のインスタンスなど)。
コンソール¶
デプロイ管理アクティビティのための中心的なハブ。 ダッシュボードでは、デプロイされたモデルにアクセスして、さらに監視、予測アクティビティ、軽減を行うことができます。
制約¶
モデルのリーダーボードタブ(説明 > 制約)。モデリングの前に高度なオプションで特徴量の制約が設定されている場合に、単調制約が適用された特徴量を確認できます。
資格情報¶
データ接続の認証と承認アクションに使用される情報。 最も一般的な接続はユーザー名とパスワードですが、代替の認証方法にLDAP、Active Directory、Kerberosなどがあります。
クラス別の精度¶
モデルのリードボードタブ(バイアスと公平性 > クラス別の精度)。モデルにバイアスがある理由と、トレーニングデータのどこからバイアスを学習したかを示すのに役立ちます。 バイアスと公平性の設定を行う必要があります。
クラス間のデータの相違¶
モデルのリーダーボードタブ(バイアスと公平性 > クラス間のデータの相違)。保護された各特徴量について、クラス別にセグメント化された評価指標とROC曲線関連のスコアを計算します。 バイアスと公平性の設定を行う必要があります。
交差検定¶
CVとも呼ばれます。 モデルのパフォーマンステスト(検定)のために実行される検定パーティションの一種。 DataRobotは、検定データのサブセット(「分割」)を使用して、分割ごとに1つのモデルを作成し、その分割に割り当てられたデータを検定に使用し、残りのデータをトレーニングに使用します。 デフォルトでは、DataRobotは5分割交差検定を使用し、リーダーボードにそれらの5つのスコアの平均を表示します。 検定も参照してください。
カスタム推論モデル¶
カスタムモデルワークショップを介してファイルの集合体としてアップロードされた、ユーザーが作成した事前学習済みモデル。 モデルアーティファクトをアップロードすることで、カスタム推論モデルの作成、テスト、およびデプロイをDataRobotの集中デプロイハブに一元化できます。 推論モデルは、事前定義された入力/出力スキーマを含めることも、非構造化することもできます。 モデルトレーニングの前にカスタマイズするには、カスタムタスクを使用します。
カスタムモデルワークショップ¶
モデルレジストリ内の、ユーザーが作成した事前学習済みモデルを、ファイルの集合体としてアップロードできる場所。 これらのモデルアーティファクトを使用して、DataRobotの一元化されたデプロイハブにカスタム推論モデルを作成、テスト、およびデプロイすることができます。
カスタムタスク¶
データ変換またはMLアルゴリズム(XGBoostやOne-hot encodingなど)。DataRobot内のMLブループリントのステップとして、またモデルのトレーニングにも使用できます。 タスクはPythonまたはRで記述され、カスタムモデルワークショップを介して追加されます。 保存された後、Composable MLでブループリントを変更するときにタスクを使用できます。 再トレーニングが不要な事前学習済みモデルをデプロイするには、カスタム推論モデルを使用します。
CV¶
交差検定を参照してください。
D¶
データドリフト¶
運用中のモデルの予測値を作成するために使用される新しい推論データの値と、展開されたモデルのトレーニング用として当初使用されたトレーニングデータとの相違点。 予測モデルは、トレーニングデータのパターンを学習し、その情報をもとに新しいデータのターゲット値を予測します。 トレーニングデータと本番データが時間の経過とともに変化し、モデルの予測力が低下すると、モデル周辺のデータがドリフトしていると言及されます。 データドリフトは、データ品質の問題、特徴量の構成の変化、さらにはターゲット特徴量のコンテキストの変化など、さまざまな理由で発生します。
データ管理¶
DataRobot内でのデータのロード、クリーニング、変換、保存を含む包括的な意味で使われる用語。 また、データを収集、保存、使用、および削除する際に企業が従う慣行も指します。
データプレパレーション¶
このプロセスは、元のデータを機械学習アルゴリズムが実行できるポイントに変換して、インサイトの明確化と予測の実行を可能にします。 この用語は「データ前処理」とも呼ばれ、データの正規化、データの標準化、統計的または数学的なデータの変換、データの処理や前処理、特徴量エンジニアリングなど、幅広いアクティビティをカバーしています。
データ品質処理レポート¶
モデルのリーダーボードタブ(説明 > データ品質処理レポート)。トレーニングデータを分析し、各特徴量について特徴量名、特徴量の型、行数、パーセンテージ、データ変換情報を提供します。
データレジストリ¶
ワークベンチで、データセットを特定のユースケースにリンクできる、データセットの一元的なカタログ。
データラングリング¶
機械学習のユースケースに応じた適切な分析単位でデータセットを作成することを目的とした、データの準備作業。
DataRobot Classic¶
DataRobotの元のバリュードリブンAI製品。 幅広い相互運用性を持ち、機械学習を活用した完全なAIライフサイクルプラットフォームを提供し、機械学習のエクスペリメントと運用のためのエンドツーエンドの機能を備えています。 DataRobot Classicは、 ワークベンチと呼ばれる新しいユーザーインターフェイスに移行中です。
DataRobotユーザーモデル(DRUM)¶
Python、R、およびJavaカスタムモデルおよびタスクをローカルでテストできるツール。 このテストによって、アップロードする前にDataRobotでカスタムモデルが正しく実行され、予測が作成されることを確認できます。
DataRobot University(DRU)¶
ビジネス上の問題を解決するための実践的なデータサイエンス教育を提供します。 DRUは、ガイド付き学習、自習型およびインストラクター主導のコース、ラボ、および認定プログラムを、多くのトピックとスキルレベルにわたって提供しています。
データセット¶
特定の時点におけるデータ(1つのファイルまたは1つのデータソースのコンテンツ)。 1つのデータソースで複数のデータセットを生成することができます。 AIカタログにおけるデータセットとは、カタログバージョンレコードと共に保存されたマテリアライズ済みデータです。 1つのエントリに複数のカタログバージョンレコードが関連付けられている場合、DataRobotでデータが再読み込みされたか最新の状態に更新されたことを示します。 古いバージョンは既存のプロジェクトをサポートするために保存されます。新しいプロジェクトでは、最新のバージョンが使用されます。 データセットは、次のいずれかの状態です。
- 「スナップショット作成済み」(マテリアライズ済み)データセットは、以前に取得および保存されたデータの不変スナップショットです。
- 「リモート」(または未マテリアライズ)データセットは、データがオンデマンドで取得された場所(AIカタログ)で設定されています。
データ接続¶
データベースへの設定済みの接続(名前、特定のドライバー、およびJDBC URLが含まれます)。 DataRobotにデータ接続を登録すると容易に再使用することができます。 1つのデータ接続には1つのコネクタがありますが、複数のデータソースを設定することができます。
データソース¶
バックエンドのデータ(指定したエンドポイント内のデータの場所)への設定済み接続。 データソースは、SQLクエリーまたは選択されたテーブルおよびスキーマデータを使用して、モデリングまたは予測に使用するデータ接続から抽出するデータを指定します。 たとえば、HDFS上のファイルへのパス、S3に保存されているオブジェクト、およびデータベース内のテーブルとスキーマなどを指定できます。 1つのデータソースには1つのデータ接続と1つのコネクタがありますが、複数のデータセットを設定することができます。 時間の経過と共にデータソースの特徴量と列が変化する可能性は低いのですが、行はデータの追加または削除に応じて変化します。
データ段階¶
大規模なデータセットのマルチパートアップロードをサポートする中間ストレージ。大量のデータを処理するときに失敗する可能性を減らします。 アップロード時に、データセットは部分的にデータステージにアップロードされ、データセット全体が完成して完成すると、AIカタログまたはバッチ予測にプッシュされます。 最初の部分がデータステージにアップロードされた後はいつでも、システムはバッチ予測にデータステージからのデータを使用して予測を入力するように指示できます。
データストア¶
データが保存されるリモートの場所を表す一般的な用語。 データストアには、1つ以上のデータベース、またはさまざまな形式の1つ以上のファイルを含めることができます。
日付/時刻のパーティション¶
時間認識プロジェクトで唯一有効な分割手法 日付/時刻では、行は、例えばランダムではなく、時系列で バックテストに割り当てられます。 バックテストは、数、開始時刻と終了時刻、サンプリング方法などを設定可能です。
ディープラーニング¶
ニューラルネットワークアルゴリズムの「レイヤー」の一部を介してデータを実行するアルゴリズムのセット。各レイヤーは、簡略化されたデータ表現を次のレイヤーに渡します。 ディープラーニングアルゴリズムはVisual Artificial Intelligence (AI)機能に不可欠であり、その処理はトレーニングダッシュボードを視覚化することにより表示できます。
デプロイ(プレイグラウンドから)¶
LLMブループリントとそれに関連するすべての設定はレジストリに登録され、DataRobotの 製品スイートでデプロイできます。
デプロイインベントリ¶
デプロイを管理するための中心的ハブ。 デプロイページにあるインベントリは、モデルの運用に関与するすべての利害関係者の調整ポイントとして機能します。 インベントリから、デプロイされたモデルのパフォーマンスを監視し、必要に応じてアクションを実行することで、単一のポイントからアクティブにデプロイされたすべてのモデルを管理できます。
検出/セグメンテーション¶
追加処理を目的とした入力画像データのサブセット選択を含むコンピュータービジョンの手法(画像セット内の1つまたは複数の画像、画像内の領域など)。
ダウンロードタブ¶
モデルのリーダーボードタブ(予測 > ダウンロード)。モデルのアーティファクトをダウンロードできます。
ダウンサンプリング¶
スマートダウンサンプリングを参照してください。
ドライバー¶
DataRobotアプリケーションがデータベースとやり取りできるようにするソフトウェア。各データ接続は、(管理者が作成およびインストールした)1つのドライバーに関連付けられています。 ドライバーの設定には、DataRobot内のJARファイルストレージの場所、およびそのドライバーに関連付けられているその他の依存ファイルが保存されます。 DataRobotは、JDBCドライバーをサポートします。
動的データセット¶
動的データセットはソースデータへの「リアルタイム」接続ですが、DataRobotはプロファイル統計(EDA1)のためにデータをサンプリングします。 カタログにはデータへのポインターが保存され、プロジェクトの作成時などにリクエストに応じてデータを取得します。
E¶
EDA(探索的データ分析)¶
データセットの解析および主要な特性のサマリーを作成するためのDataRobotのアプローチ。 一般的に、EDAには2つの段階があります。
- EDA1は、データのサンプルに基づくサマリー統計を提供します。 EDA1では、DataRobotはデータをカウント、分類し、(該当する場合)データに自動的に特徴量の変換を適用します。
- EDA2は、EDA1で収集された統計の再計算ですが、ホールドアウトを除くデータセット全体を使用します。 この解析結果は、モデル構築に使用される基準です。
埋め込み¶
テキストの数値(ベクター)表現、またはテキストの数値表現のコレクション。 埋め込みを生成するアクションは、非構造化テキストの チャンクを取得し、テキスト埋め込みモデルを使用してテキストを数値表現に変換することを意味します。 チャンクは埋め込みモデルへの入力で、埋め込みはモデルの“予測”または出力です。
アンサンブルモデル¶
ブレンダーを参照してください。
環境¶
カスタムタスクを実行するDockerコンテナ。
ESDA¶
探索的空間データ分析(ESDA)は、Location AIの探索的データフェーズです。 DataRobot Location AIは、DataRobot AutoML環境内でESDAを実行するためのさまざまなツールを提供します。これには、ジオメトリマップの視覚化、カテゴリー型/数値主題図、大規模な地理空間データセットのスマートな集約などが含まれます。
Eureqa¶
Eureqa一般化加法モデル(Eureqa GAM)、Eureqa連続値、およびEureqa分類モデルのモデルブループリント。 これらのブループリントは、独自のEureqa機械学習アルゴリズムを使用して、予測精度と複雑さのバランスをとるモデルを構築します。
EWMA(指数加重移動平均)¶
最新のデータポイントにより大きな加重と重要性を与え、時間の経過に伴うトレンドの方向を測定する移動平均。 「指数関数的」な側面は、以前の入力の加重係数が指数関数的に減少することを示します。 そうしないと、非常に新しい値が古い値よりも分散に影響を与えなくなるため、これは重要です。
エクスペリメント¶
DataRobotのモデリングプロセスを実行した結果である、ユースケースのアセット。 ユースケースには、0個以上のエクスペリメントを含めることができます。
探索的データインサイト¶
探索的データ解析(EDA)を参照してください。
外部ステージ¶
外部ステージ外部ステージは、Snowflakeのデータのロードとアンロードに使用されるSnowflake環境の外側のクラウドの場所です。 クラウドの場所は、AmazonS3またはMicrosoft Azureストレージのいずれかです。
F¶
公平性スコア¶
公平性メトリックに基づいた、保護されたクラスに対するモデルの公平性の数値計算。
公平性のしきい値¶
公平性のしきい値モデルが各保護クラスの適切な公平性の範囲内で機能するかどうかを示す指標。 保護クラスの公平性スコアやパフォーマンスには影響しません。
公平性の値¶
最も好ましい保護クラス(つまり、公平性のスコアが最も高いクラス)に対して正規化された公平性スコア。
好ましい結果¶
モデルにとって好ましい結果として扱われるターゲットの値。バイアスと公平性モデリングに使用されます。 二値分類モデルからの予測は、保護されたクラスにとって好ましい結果(良い/好ましい)または好ましくない結果(悪い/望ましくない)として分類できます。
FDW¶
特徴量の派生ウィンドウを参照してください。
特徴量¶
「特徴量」または「特徴量変数」とも呼ばれるデータセットの列。ターゲット特徴量は予測するデータセットの列名です。
特徴量の派生ウィンドウ¶
FDWとも呼ばれ、時系列モデリングで使用されます。 モデリングデータセットの特徴量を派生させるためにモデルが使用する過去の値のローリングウィンドウ。 たとえば、予測ポイントに関連するウィンドウは、モデルが予測に使用する最近の値の数を定義します。
特徴量探索¶
特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。 これらの関係性は関係性エディターによって可視化され、最終的には、作成されたリンクから派生した特徴量が追加されます。
特徴量ごとの作用¶
モデルのリーダーボードタブ(解釈 > 特徴量ごとの作用)。各特徴量の値の変化がモデルの予測に与える影響を示します。 特徴量ごとの作用では、各特徴量とターゲットの間の関係性がモデルでどのように「理解」されているかを示すグラフが表示されます。特徴量は、特徴量のインパクトでソートされます。
特徴量エンジニアリング¶
データセットに追加で特徴量を生成し、その結果、モデルの精度と性能を向上させます。 時系列と特徴量探索はどちらも、機能の基礎として特徴量エンジニアリングに依存しています。
特徴量の抽出¶
画像前処理(または画像特徴量抽出および画像前処理)を実行するモデルは、「画像特徴量抽出モデル」または「画像固有モデル」とも呼ばれます。
特徴量の抽出と削減(FEAR)¶
時系列モデリングでの特徴量の生成(ラグ、移動平均など) 新しい特徴量を(すぐに)抽出し、抽出された特徴量のセットを(後で)減らします。 詳しくはこちら:時系列特徴量の派生。
特徴量のインパクト¶
データセット内のどの特徴量がモデルの決定に最大のインパクトを与えるかを明らかにする測定値。 DataRobotでは、測定値はリーダーボードで視覚化されて報告されます。
特徴量の補完¶
時系列データ準備ツール使用時にすべての特徴量(ターゲットとその他)で補完を可能にするためフォワードフィリングを使用するメカニズム。 それによって、欠損値がないデータセットとなります(フォワードフィルする値がない各系列の先頭の行送りの値は除く場合があります)。
特徴量セット¶
モデルの構築に使用されるデータセットからの特徴量のサブセット。 DataRobotは、EDA2中に、すべての有益な特徴量、リーケージのリスクがあるものを除く有益な特徴量、すべての元の特徴量の元のリスト、および縮小されたリストを含むいくつかのリストを作成します。 ユーザーは、プロジェクト固有のリストを作成することもできます。
フィッティング¶
モデルフィッティングを参照してください。
予測距離¶
予測ウィンドウ内での相対的な位置を示す一意な時間ステップ。 モデルは、各予測距離に1つの行を出力します。
予測ポイント¶
予測の作成元となるポイント。「今だったら...」ということを示す相対時間。DataRobotは、トレーニングデータ内のすべての潜在的な予測ポイントを使用してモデルをトレーニングします。 運用環境では、通常、直近の時間です。
予測値と実測値の比較¶
モデルのリーダーボードタブ(評価 > 予測値と実測値の比較)。時系列プロジェクトでよく使用され、予測ポイントから将来の時間までの予測の動きを比較できます。 一度に1つの予測を表示する 時系列の精度チャートと似ていますが、予測値と実測値の比較チャートでは1つのビューに複数の予測距離を表示します。
予測ウィンドウ¶
FWとも呼ばれ、時系列モデリングで使用されます。 予測ポイントから開始し、将来の予測の範囲(予測距離)を定義します(「最も注目すべき時間範囲」)。その後、その範囲に対してモデルが最適化され、その範囲の平均でリーダーボード上でモデルが格付(ランキング)されます。
予測¶
時間に基づく将来の予測。最近入力された行を使用して将来の値を予測します。 Forecastingは予測のサブセットであり、観測値の傾向を使用して、期待される結果または期待される応答を特徴付けます。
基盤モデル¶
広範囲なインターネットテキストで事前トレーニングされた人工知能モデルの一種。 テキスト基盤モデルの例は、GPT-4とPaLMです。 「基盤」と呼ばれます。さまざまな特定のタスクに合わせてファインチューニングでき、基盤がその上部にある構造を支持するのとよく似ているからです。
フローズン実行¶
モデルの初期の小さなサンプルサイズベースの実行からパラメーター設定を「固定」するプロセス。 小さいサンプルに基づくパラメーター設定は、同じデータの大きいサンプルでもうまく機能する傾向があるためです。
FW¶
予測ウィンドウを参照してください。
G¶
生成AI¶
トレーニングされたモデルを活用して、トレーニングデータに基づいた新しいコンテンツやデータを生成する人工知能の一種。 生成AIでは、テキスト、画像、音声、さらにはコードを生成できます。 主な違いは、入力特徴量の分析と処理ではなく、プロンプティングに基づいて出力が作成されることです。 生成AIには、Transformer、LLM(大規模言語モデル)、GAN(敵対的生成ネットワーク)などの新しいテクノロジーが組み込まれています。
ガバナンスレンズ¶
デプロイの社会的および運用的側面をまとめるデプロイページ上のDataRobotのデプロイインベントリとしてフィルタリングされた画面。 これらには、デプロイオーナー、モデルの構築方法、モデルの年齢、および信頼性のモニタリング状況などが含まれます。
GPU(グラフィックスプロセッシングユニット)¶
計算タスクを処理するためのメカニズム。 GPUは数学的計算向けに高度に最適化されており、並列処理に優れていますが、あまり複雑でないタスクにしか使えません。 ディープラーニングは主に行列乗算のバッチであり、これらは非常に簡単に並列処理できるため、特にGPUのメリットを受けています。
グリッド検索¶
ハイパーパラメーターに使用される網羅的な検索方法。
H¶
ホールドアウト¶
トレーニングおよび検定プロセス中にモデルが使用できないデータのサブセット。 最適なモデルを選択した後でのみ、モデルのパフォーマンスの最終的な見積もりにホールドアウトスコアを使用します。 検定も参照してください。
信頼性¶
モデルが不確実な予測を行ったり、初めて見るデータを受信した場合に、リアルタイムで認識できるようにするために、ユーザーが定義したデプロイルールの設定。 データドリフトとは異なり、モデルの信頼性は時間の経過に伴う幅広い統計プロパティを処理しません。代わりに、個々の予測に対してトリガーされ、さまざまなトリガーに依存するルールを使用して目的の動作を設定できます。
I¶
画像データ¶
デジタル画像のシーケンス(動画など)、デジタル画像のセット、単一のデジタル画像、これらのいずれかの1つまたは複数の部分。Visual Artificial Intelligence (AI)の一部として使用されるデータです。 デジタル画像は、1つのファイルに格納されている画素(「ピクセル」)の整理されたセットを含むことがあります。 ラスター形式(TIFF、JPEG、GIF、PNG、BMPなど)、ベクトル形式(CGM、SVGなど)、複合形式(EPS、PDF、PostScriptなど)、およびステレオ形式(MPO、PNS、JPSなど)を始めとする適切な形式とタイプのデジタル画像ファイルを使用できます。
画像前処理¶
コンピュータービジョンの技術で、Visual Artificial Intelligence (AI)の一部です。 これには、画像の再サンプリング、ノイズ除去、コントラストの強調、およびスケーリング(スケール空間表現の生成など)の例が挙げられます。 抽出される特徴量を以下に示します。
- 低レベル:元のピクセル、ピクセルの明度、ピクセルの色、グラデーション、テクスチャ、色ヒストグラム、運動ベクトル、エッジ、ライン、コーナー、リッジなど。
- 中レベル:形状、表面、体積など。
- 高レベル:オブジェクト、シーン、イベントなど。
推論データ¶
実用的なインサイトを見つけるために、過去のデータセットから構築されたアルゴリズムモデルを適用することでスコアリングされたデータ。 スコアリングデータも参照してください。
サンプル内予測¶
トレーニングセット外でトレーニングされたモデル(検定と、場合によってはホールドアウト)。 DataRobotは、デフォルトで設定されたトレーニングの64%を使用します。 64%以上のサンプルサイズでモデルがトレーニングされた場合、DataRobotは、サンプル内予測がそのスコアに使用されていることを示すアスタリスクで検定スコアにマークします。 80%以上のデータでトレーニングする場合、ホールドアウトスコアもアスタリスク付きになります。 スタックされた(アウトオブサンプル)予測と比較します。
不規則なデータ¶
一定の間隔および時間ステップが検知されないデータ。 時間認識モデリングで使用されます。
K¶
KA¶
事前に既知の特徴量を参照してください。
事前に既知の特徴量¶
KAとも呼ばれ、時系列モデリングで使用されます。 事前に値が分かっていて、事前に知り得ない値として設定する必要のない特徴量(休日など)。 例としては、翌週に製品が販売されることがわかっている場合、事前に価格情報を提供できます。
L¶
大規模言語モデル(LLM)¶
ディープラーニング技術と大規模なデータセットを使用して、新しい内容を理解、要約、生成、予測するアルゴリズム。
リーダーボード¶
プロジェクトのメトリックに従ってランク付けされた、プロジェクトのトレーニング済みブループリント(モデル)のリスト。
リーケージ¶
ターゲットリーケージを参照してください。
学習曲線¶
データセットのサイズを増やす価値があるかどうかを判断するためのグラフ。 学習曲線グラフは、パフォーマンスが最も優れたモデルについて、サンプルサイズが変化するにつれモデルパフォーマンスがどのように変化するかを示します。
リフトチャート¶
モデルがターゲットの母集団をどの程度適切に分割しているか、そしてターゲットを予測することができるかを示し、モデルの有効性を視覚化します。
リンクキー¶
(特徴量探索)結合して関係性を作成するためのキーとして使用されるプライマリーデータセットの機能。
LLMブループリント¶
保存されたブループリントは、 デプロイに使用できます。 LLMブループリントは、LLMからレスポンスを生成するために必要なものの完全なコンテキストを表し、結果の出力は、 プレイグラウンド内で比較できます。 この情報は、 LLMブループリント設定でキャプチャされます。
LLMブループリントのコンポーネント¶
LLMブループリント設定を構成するエンティティ。これは、ベクターデータベース、ベクターデータベースを生成する埋め込みモデルユーザー、LLM設定、システムプロンプトなどを指します。これらのコンポーネントは、DataRobot内でネイティブに提供することも、外部ソースから取り込むこともできます。
LLMブループリントの設定¶
レスポンスを生成するためにLLMに送信されるパラメーター(ユーザーが入力したプロンプトと連動)。 これには、単一のLLM、LLM設定、オプションでシステムプロンプト、さらにオプションでベクターデータベースが含まれます。 ベクターデータベースが割り当てられていない場合、LLMはトレーニングからの学習を使用してレスポンスを生成します。 LLM ブループリントの設定は変更可能なので、さまざまな設定を試すことができます。
LLM payload¶
レスポンスを生成するためにLLMエンドポイントに送信される内容のバンドル。 これには、ユーザープロンプト、LLM設定、システムプロンプト、ベクターデータベースから取得した情報が含まれます。
LLMのレスポンス¶
LLMエンドポイントに送信されたペイロードに基づいてLLMから生成されたテキスト。
LLM設定¶
LLMがユーザープロンプトを入力してレスポンスを生成する方法を定義するパラメーター。 これらは、レスポンスを変更するためにLLMブループリント内で調整できます。 現在、これらのパラメーターは「Temperature」、「Top P」、「最大出力トークン数」設定で表されます。
Location AI¶
DataRobotは、一般的な地理空間形式のネイティブな取込みと座標の認識、 ESDA、空間的に明示的なモデリングタスクと可視化の提供により、地理空間分析をサポートします。
ログ¶
モデルのリーダーボードタブ(説明 > ログ)。成功した操作のステータスを緑色のINFOタグで、エラーに関する情報を赤いERRORタグでそれぞれ表示します。
M¶
機械学習運用¶
MLOpsを参照してください。
Majority class¶
カテゴリー型特徴量(例:true
/false
やcat
/mouse
)がある場合、頻度の高い値がマジョリティークラスです。 たとえば、データセットに80行の値cat
と20行の値mouse
がある場合、cat
がマジョリティークラスです。 マイノリティークラスも参照してください。
「予測を作成」タブ¶
モデルのリーダーボードタブ(予測 > 予測を作成)。モデルを本番環境にデプロイする前に予測を行うことができます。
管理エージェント¶
MLOpsエージェントのtarballに含まれているダウンロード可能なクライアント(開発者ツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を管理することができます。 このツールは、あらゆるタイプのインフラストラクチャへのモデルデプロイを自動化する標準的なメカニズムを提供します。 管理エージェントは、デプロイの正常性とステータスに関する最新情報をAPI経由で定期的に送信し、それをMLOpsイベントとして [サービスの正常性] ページで報告します。
手動¶
手動DataRobotがEDA2を完了し、モデリングのためのデータを準備しますが、モデル構築は実行しないモデリングモードです。 ユーザーが構築する特定のモデルをモデルリポジトリから選択します。
マテリアライズ済み¶
DataRobotがデータアセットから抽出して、コピーをカタログに保存しているデータです。 スナップショットおよび マテリアライズされていないデータも参照してください。
メタデータ¶
データアセットの詳細(作成日、変更日、特徴量の数と型、スナップショットのステータスなど)。
指標¶
最適化指標を参照してください。
マイノリティークラス¶
カテゴリー型特徴量(例:true
/false
やcat
/mouse
)がある場合、頻度の低い値がマイノリティークラスです。 たとえば、データセットに80行の値cat
と20行の値mouse
がある場合、mouse
がマイノリティークラスです。 マジョリティークラスも参照してください。
MLOps(Machine Learning Operations)¶
本番環境でMLアプリケーションを迅速にデプロイおよび管理するための、スケーラブルで管理された手段。
MLOpsエージェント¶
MLOpsエージェントのtarballに含まれている2つのダウンロード可能なクライアントのうちの1つ(*開発者ツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を監視および管理することができます。 監視エージェントと管理エージェントを参照してください。
モデル/モデリング¶
新しいデータをスコアリングできるトレーニングされたMLパイプライン。 モデル—記述的、予測的、規範的—はデータ分析の基礎となります。 モデリングでは、データからインサイトを抽出し、それを使用することでより適切なビジネス上の意思決定が可能になります。 アルゴリズムモデルは、トレーニングデータに基づいて、ターゲット特徴量に当てはまる可能性が高い結果を示します。 それらは関係性の表現を構築し、将来収集する同様のデータに適用できる、データセット内のすべての異なる特徴量間のパターンを引き出し、それらのパターンと関係性に基づいて決定を下すことができます。
モデル比較¶
異なる評価ツールを使用して2つのモデルを比較できるリーダーボードタブ。ビジネスリターンが最も高いモデル、またはアンサンブルモデルの候補を特定するのに役立ちます。
モデルフィッティング¶
トレーニングされたデータと同様のデータをどれだけ適切に一般化するかの指標。 適切に適合されたモデルは、より精度の高い結果を生成します。 過剰適合されたモデルは、データと過剰に一致します。 適合が不十分なモデルは、十分に一致しません。
モデル情報¶
モデルのリーダーボードタブ(説明 > モデル情報)。モデルファイルサイズ、予測時間、サンプルサイズなど、特定のモデルの概要を表示します。
モデル概要¶
モデルのリーダーボードを表示するエクスペリメント内のページ。モデルを選択すると、そのモデルの視覚化が表示されます。
モデルパッケージ¶
モデルレジストリに保存された関連付けされたメタデータを含むアーカイブ済みモデルアーティファクト。 モデルパッケージはカスタムモデルのデプロイなどによって、手動または自動で作成できます。 モデルパッケージをデプロイ、共有、および完全にアーカイブできます。
モデルレジストリ¶
DataRobotで使用される様々なモデルのための組織的なハブ。 モデルは、デプロイ可能なモデルパッケージとして登録されます。レジストリには、使用可能な各パッケージがリストアップされています。 各パッケージは、そのモデルのソースに関係なく同じように機能します。 モデルレジストリには、カスタムモデルを作成してデプロイできるカスタムモデルワークショップも含まれます。 モデルパッケージはモデルの種類に応じて、手動または自動で作成できます。
モデルのスコアリング¶
データのパーティションに最適化指標を適用し、モデルのパフォーマンスを評価するために使用できる数値スコアを割り当てるプロセス。
モデリングデータセット¶
元のデータセットを変換することで、データを将来の値に事前にシフトし、時系列のラグ特徴量を生成して、時系列分析のメタデータを計算します。 一般に特徴量派生と呼ばれ、時系列で使用されますが、OTVでは使用されません。 特徴量派生プロセスで使用される演算子および作成された特徴量名のリストについては、時系列特徴量エンジニアリングのリファレンスを参照してください。 FEARも参照してください。
モデリングモード¶
DataRobotがモデルの構築に使用するトレーニングセットのサンプルパーセンテージを制御する設定。 DataRobotは、オートパイロット, クイック(デフォルト)、手動、および包括的モードの4つのモデリングモードを提供します。
監視エージェント¶
MLOpsエージェントのtarballに含まれているダウンロード可能なクライアント(開発者ツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を管理することができます。 この機能により、これらのモデルによる予測や情報を、デプロイの一部として報告することができます。 このツールを使えば、モデルがどこで実行されているかに関わらず、精度、データドリフト、予測分布、レイテンシーなどを監視することができます。
単調モデリング¶
特定のXGBoostモデルに、特定の特徴量とターゲットの間の単調な(常に増加または常に減少する)関係性のみを学習させる方法。
多クラス¶
分類を参照してください。
多ラベル¶
データセットの各行が1つ、複数、またはゼロのラベルに関連付けられている分類タスク。 一般的な多ラベル分類の問題は、テキストの分類(映画は「犯罪」と「ドラマ」の両方である)と画像の分類(家と車が含まれる画像)です。
マルチモーダル¶
同一モデル内で、複数の特徴量の型を同時にサポートするモデルタイプ。
複数系列¶
入力特徴量の共通セットに基づいて複数の時系列を含むデータセット(複数の店舗の販売量を予測する場合など)。
いいえ¶
ナイーブモデル¶
ベースラインモデルを参照してください。
NextGen¶
刷新されたDataRobotのユーザーインターフェイス。エクスペリメントベースの反復ワークフローを実現するワークベンチ、モデルの進化を追跡し、バージョン管理されたモデルを一元管理するためのレジストリ、デプロイされたモデルを監視・管理するコンソールで構成されています。 また、NextGenは、GenAIのエクスペリメント、ノートブック、アプリを作成するためのゲートウェイも提供します。
AIアプリ¶
DataRobotのコアサービスを実現するAI搭載アプリケーションを、モデルの構築やパフォーマンスの評価をすることなく作成できる、コード不要のインターフェイス。 アプリケーションは簡単に共有でき、ユーザーはアプリケーションを使用するための完全なDataRobotライセンスの所有権を取得する必要はありません。
N-gram¶
一連の単語。Nは単語の数です。 たとえば、「機械学習」は2グラムです。 テキスト特徴量は、自然言語処理(NLP)の準備としてn-gramに分割されます。
ノートブック¶
コード実行とリッチメディアをホストするインタラクティブな計算環境。 DataRobotは、Jupyter互換のホスト型ノートブックを作成、管理、実行するための独自のアプリ内環境を提供します。
ナウキャスティング¶
過去と現在のデータに基づいてターゲットの現在の値を予測する時系列モデリングの方法。 技術的には、開始と終了時刻が0(現在)である予測ウィンドウのことです。
O¶
オフセット¶
モデリングで固定要素(Generalized Linear Modelまたは勾配ブースティングマシンモデルの係数1)として取り扱う必要のある特徴量。 オフセットは、価格制限を組み入れるため、または既存のモデルをブーストするために使用することがあります。
操作¶
1つ以上のレコードを0個以上のレコードに変換、フィルター、またはピボットするように指定する単一のデータ操作命令(例:検索と置換、新しい特徴量の計算)。
最適化指標¶
モデルがどの程度実測値を予測しているかを判断するために、DataRobotで使用される誤差指標。 ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。
順序付け特徴量¶
DataRobotがモデリングに使用するプライマリー日付/時刻特徴量。 EDA1中にオプションが検出されました。
OTV¶
時間外検定とも呼ばれます。 時間に関連するデータをモデル化する手法。 OTVでは、時系列のような予測は行われません。 その代わりに、個々の各行のターゲット値を予測します。
過剰適合¶
過剰適合モデルが学習データに適合しすぎたために、未知のデータに対して正確な性能を発揮できなくなってしまうこと。 これは、モデルがトレーニングデータを長時間トレーニングしすぎて、その「ノイズ」を学習(およびモデル化)し、モデルを一般化できない場合に発生します。
P¶
パーティション¶
精度を最大化するために分解されたトレーニングデータのセグメント。 データセットのセグメント(分割)。 トレーニング、検定、交差検定、ホールドアウトも参照してください。
クラスごとのバイアス¶
モデルのリーダーボードタブ(バイアスと公平性 > クラスごとのバイアス)。モデルにバイアスがあるかどうか、バイアスがある場合は、そのバイアスの程度と、誰に対して好ましいまたは好ましくないバイアスがあるかを特定するのに役立ちます。 バイアスと公平性の設定を行う必要があります。
PID(プロジェクト識別子)¶
プロジェクトを一意に識別するために使用される内部識別子。
PII¶
氏名、写真、自宅住所、SSN(社会保障番号)またはその他の識別番号、生年月日などの個人を特定できる情報。 DataRobotは、特定の種類の個人データの検出を自動化して、この情報がデータセットに誤って含まれることに対する保護レイヤーを提供します。
プレイグラウンド¶
LLMブループリント(LLMおよび関連する設定)を作成して操作する場所。それぞれのレスポンスを比較して、本番環境で使用するものを決定します。 多くのLLMブループリントは、プレイグラウンド内に存在することができます。 プレイグラウンドはユースケースのアセットです。1つのユースケースに複数のプレイグラウンドが存在する場合があります。
プレイグラウンドの比較¶
比較のためにLLMブループリントをプレイグラウンドに追加し、これらのLLMブループリントにプロンプトを送信し、レンダリングされたレスポンスを評価する場所です。 RAGでは、以前のプロンプトを参照せずに、単一のプロンプトがLLMに送信され、単一のレスポンスが生成されます。 これにより、ユーザーは複数のLLMブループリントからのレスポンスを比較できます。
ポータブル予測サーバー(PPS)¶
DataRobotモデルのパッケージ(.mlpkg
ファイル)を自己完結型のDockerイメージとして配布する DataRobotの実行環境。 主な設置環境から切り離して運用することができます。
予測¶
時系列モデリング以外の場合。 1つの行の情報を使用して、その行のターゲットを決定します。 予測では、説明的な特徴量を使用して期待される出力または期待される応答(たとえば、将来の特定のイベント、性別、不正行為など)を特徴付けます。
予測データ¶
予測リクエストおよびモデルからの結果を含むデータ。
予測環境¶
DataRobotの外部にあるシステムでデプロイ予測を管理するように設定された環境。 予測環境では、デプロイの権限および承認のプロセスを設定できます。 設定が完了すると、ポータブル予測サーバーで実行されているDataRobotモデルや、MLOps監視エージェントによって監視されるリモートモデルで使用する予測環境を指定することができます。
予測の説明¶
予測を左右する要因を行単位で可視化したもの。変数がモデルに与える影響を定量的に示し、特定のモデルが特定の予測を行った理由を回答します。 モデルが特定の予測を行った理由を理解して、予測が意味があるかどうかを検定することが可能になります。 SHAP、XEMPも参照してください。
予測の説明¶
予測間隔は、点推定(機械学習モデルの単一予測など)の上限と下限を含めることで、DataRobotが単一レコード予測の不確実性を評価および説明するのに役立ちます。 予測間隔は、将来のデータポイントにおいてターゲットが収まる可能性がある値の範囲を示します。
予測ポイント¶
予測を行った時点、または予測を行う時点。 実稼働モデルに基づいて予測ポイントを計画します(「更新の1か月前」や「ローン申込書の提出時期」など)。 定義したら、先読みバイアスを回避するためにトレーニングデータにその項目を作成します。 特徴量探索で予測ポイントを定義すると、派生特徴量は、そのポイントより前のデータのみ使用します。
準備済みのデータセット¶
レシピをパブリッシュした後にソースでマテリアライズされたデータセット。
プライマリーデータセット¶
(特徴量探索)プロジェクトを開始するために使用されるデータセット。
プライマリー特徴量¶
(特徴量探索)プロジェクトのプライマリーデータセットの特徴量。
プロジェクト¶
トレーニングに使用されるソースであるデータセット、およびデータセットから構築されたモデルを含む参照可能なアイテム。 プロジェクトは、ホームページ、プロジェクトコントロールセンター、AIカタログから作成およびアクセスできます。 それらは、ユーザー、グループ、組織で共有することができます。
プロンプト¶
チャット中に行う入力で、LLMのレスポンスの生成に使用されます。
プロンプトテンプレート¶
システムプロンプトを参照してください。
保護クラス¶
バイアスと公平性モデリングに使用される、保護された特徴量の1つのカテゴリー値。
保護された特徴量¶
モデル予測の公平性を測定するデータセット列。 モデルの公平性は、データセットから保護された特徴量に対して計算されます。 「保護された属性」とも呼ばれます。
パブリッシュ¶
レシピで指定された一連の操作を実行し、データソース内のデータセットをマテリアライズすること。
Q¶
クイック(オートパイロット)¶
32%からモデルの実行を開始して64%までモデルを実行するオートパイロットのフルモデリングモードの縮退バージョン。 クイックでは、16%のサンプルサイズは実行されません。 DataRobotでは、ターゲットやパフォーマンス指標など、さまざまな基準に基づいて実行するモデルが選択されますが、名前が示すように、より迅速なエクスペリメントをサポートするために、トレーニング実行時間が比較的短いモデルだけが選択されます。
R¶
格付表¶
モデルのリーダーボードタブ(説明 > 格付表)。モデルの完全な検証済みパラメーターをエクスポートできます。
リアルタイム予測¶
低レイテンシーが必要な場合に予測を作成する方法。 専用予測サーバーとスタンドアロン予測サーバーでのリアルタイムデプロイ予測用の予測APIを使用します。
受信者動作特性曲線¶
ROC曲線を参照してください。
レシピ¶
データに適用される、ユーザーが定義した一連の変換操作のこと。 レシピはシステムによって一意に識別され、バージョン管理されます。 入力データのソースとスキーマ、出力データのスキーマ、ユースケースコンテナID、およびユーザーIDを識別するメタデータが含まれます。
レジストリ¶
NextGenにおいて、バージョン管理され、デプロイ可能なモデルパッケージへのアクセスを一元的に行える場所。 レジストリから、カスタムモデルやジョブの作成、コンプライアンスドキュメントの生成、本番環境へのモデルのデプロイができます。
連続値¶
連続する値(たとえば、1.7、6、9.8...)を予測する予測問題の一種。 分類も参照してください。
規則的データ¶
データセット内の行が等間隔の時間グリッド上にある場合、そのデータは規則的なデータと言えます(たとえば、データセット全体を通して1時間ごとに1つの行がある場合)。 時間ステップおよび半規則的データも参照してください。
関係性¶
(特徴量探索)データセット間の関係性。 各関係性にはデータセットの1つのペアがあり、各データセットからの結合キーがあります。 キーは、データセットの1つまたは複数の列で構成されます。 両方のデータセットからのキーに順番が付けられ、キーには列の同じ番号が必要です。 キーの組み合わせは、2つのキーの結合方法を決定するために使用されます。
リモートモデル¶
DataRobot以外の外部予測環境で動作するモデル。多くの場合、MLOps監視エージェントが監視し、DataRobotに統計情報を報告します。
リポジトリ¶
問題の種類に応じて選択され、プロジェクトで利用可能なモデリングブループリントのライブラリ。 これらのモデルは、DataRobotによって選択および構築でき、ユーザーが実行することもできます。
検索拡張生成(RAG)¶
プロンプト、システムプロンプト、LLM設定、ベクターデータベース(またはベクターデータベースのサブセット)、およびこのペイロードに基づいて対応するテキストを返すLLMを含むペイロードをLLMに送信するプロセス。 これには、ベクターデータベースから関連情報を取得し、プロンプト、システムプロンプト、およびLLM設定とともにLLMエンドポイントに送信して、ベクターデータベース内のデータに基づくレスポンスを生成するプロセスが含まれます。 この操作には、オプションで複数のプロンプトのチェーンを実行するためのオーケストレーションを組み込むこともできます。
ROC曲線¶
受信者動作特性曲線とも呼ばれます。 確率スケール上の任意のポイントで、選択したモデルに関する分類、パフォーマンス、統計を探索するのに役立つ視覚化データです。 DataRobotでは、視覚化はリーダーボードから利用できます。
役割¶
ロール—所有者、コンシューマー、エディター—は、特定のデータセットに対して各ユーザーに提供される機能を説明します。 これは、データソースまたはデータ接続を作成するユーザーとエンドユーザーが同じでない場合や、アセットの複数のエンドユーザーが存在する場合に使用すると便利です。
S¶
サンプルサイズ¶
モデルの構築に使用されるトレーニングデータ全体の割合。 パーセンテージは、選択したモデリングモードに基づくか、ユーザーが選択できます。
スコアリング¶
モデルのスコアリング、 スコアリングデータを参照してください。
スコアリングコード¶
DataRobotのモデルをアプリケーション以外で使用する方法。 リーダーボードの一部のモデルでは、コマンドラインからデータのスコアリングに使用できるJavaコードを含むJARファイルをダウンロードして利用できます。
一部のモデルで利用可能な、Javaで動作するエクスポート可能なJARファイル。 スコアリングコードJARには、DataRobot APIと同じ予測計算ロジックが含まれます(コード生成メカニズムによって、生成プロセスの一部として各モデルの精度がテストされます)。
スコアリングデータ¶
実用的なインサイトを見つけるために、過去のデータセットから構築されたアルゴリズムモデルを新しいデータセットに適用。 一般的なスコアリング方法は、バッチスコアリングとリアルタイムスコアリングです。 「スコアリングされたデータ」(「推論データ」とも呼ばれる)は、スコアリングされているデータセットを指します。
季節性¶
1年、1週間、1日などの間の異なる時間で繰り返し観測される値の変動。周期性。 たとえば、温度は高い季節性を示します(夏に高く、冬に低くなり、日中は高く、夜間は低くなります)。 時系列モデリングに適用されます。
セカンダリーデータセット¶
(特徴量探索)プロジェクトに追加されるデータセットで、プライマリーデータセットとの関係性の一部となるもの。
セカンダリー特徴量¶
(特徴量探索)プロジェクトのセカンダリーデータセットから派生した特徴量。
セグメント化された分析¶
データのドリフトと精度の統計情報を、一意のセグメントの属性および値にフィルタリングするデプロイユーティリティ。 トレーニングや予測要求データの運用上の問題点を把握するのに有効です。
セグメント化されたモデリング¶
各セグメントのモデルを生成することにより、複数系列プロジェクトをモデル化する方法。 DataRobotは、各セグメント(セグメントチャンピオン)に最適なモデルを選択し、展開可能な単一の結合モデルにセグメントチャンピオンを含めます。
セグメントID¶
複数系列プロジェクトのセグメントに系列をグループ化するために使用されるデータセットの列。 セグメントIDは、DataRobotがセグメントごとに個別のモデルを構築するセグメント化されたモデリングワークフローに必要です。 セグメント化されたモデリングも参照してください。
セマンティックレイヤー¶
セマンティックレイヤーは、複雑なデータを一般的なビジネス用語にマッピングするソースデータのビジネス表現であり、データの意味合いおよびそれが表す情報をより簡単に理解する上で役立ちます。
半規則的データ¶
ほとんどの時間ステップは規則的ですが、部分的に小さなギャップのあるデータ(週末を除く営業日など)は、半規則なデータになります。 規則的データおよび時間ステップも参照してください。
系列ID¶
複数系列プロジェクトのデータセットを系列に分割するために使用されるデータセットの列。 この列には、各行が属する系列を示すラベルが含まれています。 複数系列モデリングも参照してください。
サービスの正常性¶
予測リクエストに迅速かつ確実に応答するデプロイの能力に関する指標を追跡する、デプロイのパフォーマンス監視コンポーネント。 ボトルネックの特定や予測能力の評価に有効。
SHAP(Shapley値)¶
ツリーベース、ディープラーニング、線形ベースのモデルにおける予測説明の計算に用いる高速でオープンソースな手法。 SHAPは、各特徴量が平均とは異なる特定の予測にどの程度寄与するかを推定します。 SHAPは加法性があり、上位N個の特徴量がどれだけ予測に寄与しているかを簡単に確認できます。 予測の説明、XEMPも参照してください。
サイドカーのモデル¶
回答を返すLLMをサポートする構造的なコンポーネント。 プロンプトが有害かどうか、インジェクション攻撃かどうかなどを判断するのに役立ちます。DataRobotでは、ホストされたカスタム指標を使って監視を行います。
スリム実行¶
時間とメモリーの使用を改善するテクニック。スリム実行は、800MBを超えるデータセットに適用されます。 トリガーされると、モデルは内部の交差検定を計算しないため、スタックされた予測はありません。
スマートダウンサンプリング¶
マジョリティークラスのサイズを小さくすることで、データセット全体のサイズを小さくする手法です。これにより、精度を犠牲にせずにモデルを短時間で構築できます。 スマートダウンサンプリングを有効にすると、すべての分析およびモデル構築は、ダウンサンプルデータ後の新しいデータセットサイズに基づいて行われます。
スナップショット¶
データソースから作成されたアセット。 たとえばデータセットの場合、これは特定の時点で取得されたデータベース全体または一部の(結合された)テーブルを表します。 これはライブデータベースから取得されますが、データの静的な読み取り専用のコピーが作成されます。 DataRobotでは、各データアセットタイプのスナップショットを作成します。ユーザーは、データをインポートするときにスナップショットを無効にできます。
速度対精度¶
速度対精度分析プロットは、予測実行時間と予測精度のトレードオフを示し、オーバーヘッドの最も低いモデルを選択するのに役立ちます。
安定性¶
モデルのリーダーボードタブ(評価 > 安定性)。さまざまなバックテストにおけるモデルのパフォーマンスを一目で把握できるサマリーを提供します。 このチャートのバックテスト情報は、モデル情報タブに表示される情報と同じです。
スタックされた予測¶
異なるサブセットに複数のモデルを構築する方法。 行の予測は、そのデータをトレーニングから除外したモデルを使用して作成されます。 この方法により、各予測は効果的に「アウトオブサンプル」予測になります。 予測ドキュメントの例を参照してください。 「サンプル内」予測と比較します。 スリム実行も参照してください。
定常性¶
系列の平均が時間の経過とともに変化しないこと。 定常的な系列にはトレンドや季節的な変動がありません。 時系列モデリングに適用されます。 トレンドも参照してください。
教師あり学習¶
ラベル付きデータを使用した機械学習。各レコードのデータセットには、ターゲット特徴量の既知の値が含まれています。 トレーニング中にターゲットを知ることにより、モデルは他の特徴量がターゲットにどのように関連しているかを「学習」し、新しいデータを予測することができます。 教師なし学習も参照してください。
システムプロンプト¶
オプションのフィールドであるシステムプロンプトは、個々のすべてのプロンプトの先頭にある「汎用」プロンプトです。 LLMのレスポンスを指示およびフォーマットします。 システムプロンプトは、レスポンス生成中に作成される構造、トーン、形式、コンテンツに影響を与えることがあります。
T¶
ターゲット¶
予測対象データセットの列の名前。
ターゲットリーケージ¶
予測時に値が不明な特徴量を使用して得た結果(たとえば、トレーニングデータセットの「解約理由」の値を使用して顧客が解約するかどうかを予測した結果)。 モデルの特徴量セットの特徴量を含めると、予測に不適切な影響が生じ、過度に楽観的なモデルが生成されることがあります。
タスク¶
ML手法の一種で、データ変換にOne-hot encodingや推定処理にXGBoost分類子を使用して、ブループリントを定義します。 数百種類の標準タスクが用意されているほか、オリジナル(カスタム)タスクを定義することも可能です。
時系列¶
時間順にインデックスが付けられた一連のデータポイント。 通常、等間隔で連続して行われる一連の測定。 時間の経過に伴って条件が変化する可能性があるデータサイエンスの問題がある場合、時系列モデリングが推奨されます。
時系列分析¶
時系列データを分析して、有意な統計データやその他の特徴的なデータを抽出する手法。
時系列予測¶
過去に観測された値に基づいて、未来の値を予測するのに使用するモデル。 実際には、予測モデルは時系列機能を他のデータと組み合わせる場合があります。
時間ステップ¶
時系列の行間で検知された中央値の時間差。時間単位はDataRobotによって決定されます。 時間ステップは、1つの数値と1つの時間差単位で構成されます(15「分」など)。 ステップが検出されない場合、そのデータセットは不規則的とみなされ、時系列モデルは無効化されることがあります。 規則的データおよび半規則的データも参照してください。
トークン¶
トークンは、LLMが操作できるテキストの最小単位です。 ユーザープロンプトを処理するとき、LLMは入力テキストをトークンに分割し、トークンごとに出力トークンを生成します。 別のLLMでは、トレーニングされたデータから語彙を学習するため、同じテキストを様々な方法でトークンに分離することがあります。 言語とLLMに応じて、トークンは文字、文字のグループ、単語、またはその他のテキスト単位になります。 GPTモデルのトークン長の目安は、英語では1 token ~= 4
文字です。
追跡エージェント¶
MLOpsエージェントを参照してください。
トレーニング¶
既知のターゲットに基づいてモデルを構築するプロセス。
トレーニングダッシュボード¶
モデルのリーダーボードタブ(評価 > トレーニングダッシュボード)。実行された反復ごとに、モデルのトレーニングとテストの損失、精度、学習率、モメンタムに関する情報が提供されるため、モデルのトレーニング中に発生した可能性のある事象について理解を深めることができます。
トレーニングデータ¶
モデルの構築に使用されるデータの部分(パーティション)。 検定、交差検定、ホールドアウトも参照してください。
転移学習¶
単一のデータセットをトレーニングして、有用かつ他の学習にも適用できうる情報を抽出するプロジェクト手法。
トレンド¶
時間の経過に伴う増加または減少。 トレンドには、直線的なものと非直線的なものがあり、変動を示すこともあります。 トレンドを含む系列は定常的(静的)でありません。
チューニング¶
いくつかのハイパーパラメーターを変更し、データ上でアルゴリズムを再度実行し、パフォーマンスを比較して、どのハイパーパラメーターのセットが最も精度の高いモデルになるかを決定する試行錯誤のプロセス。 DataRobotでは、この機能は[高度なチューニング]タブから利用できます。
U¶
分析単位¶
(機械学習)予測を行う際の観測値。
無制限の多クラス¶
分類を参照してください。
未マテリアライズ¶
プロファイル統計の目的でDataRobotでサンプリングされ、保持されないデータ。 カタログにはデータへのポインターが格納され、データはプロジェクトの開始時またはバッチ予測を実行するときにユーザーのリクエストに応じて取得されます。 マテリアライズ済みデータも参照してください。
非構造化テキスト¶
テーブルにすっきり収まらないテキスト。 最も一般的な例は、通常、何らかの種類のドキュメントまたはフォームの大きなテキストブロックです。
教師なし学習¶
既知の(ラベル付けされた)結果を参照せず、かつターゲットを指定せずにデータセットからパターンを推測する機能。 教師なし学習の種類としては、異常検知、外れ値検知、新規性検知、カスタリングが挙げられます。 異常検知では、DataRobotはデータセットで異常を検出するために教師なし学習を適用します。 クラスタリングでは、DataRobotは、データ内の自然グループを識別するために教師なし学習を使用します。 教師あり学習も参照してください。
ユースケース¶
ワークベンチのエクスペリメントフローの一部であるオブジェクトをグループ化するコンテナ。
ユーザーのブループリント¶
ユーザーが作成して、共有と変更できるようにAIカタログに保存したブループリント(および追加メタデータ)。 これは、リポジトリまたはリーダーボードのモデルから使用できるブループリントとは異なりますが、どちらもユーザーブループリントの作成の基礎として使用できます。 ブループリントも参照してください。
V¶
検証¶
検定(つまりテスト)パーティションは、トレーニングから除外され、モデルのパフォーマンスを評価するために使用されるデータのサブセクションです。 このデータはモデルを構築するのには使用されなかったため、偏りのないモデルの推定正解率を提供することができます。 モデルを選択する際には、通常検定の結果を比較します。 交差検定も参照してください。
特徴量¶
特徴量を参照してください。
ベクターデータベース¶
非構造化テキストのチャンクのコレクションとそれに対応する各チャンクに対するテキスト埋め込み。取得しやすいようにインデックスが付けられています。 ベクターデータベースをオプションとして使用して、LLMのレスポンスを特定の情報に基づかせ、 RAG操作中に活用するLLMブループリントに割り当てることができます。 ベクターデータベースの作成は、非構造化テキストのコレクションがチャンクに分割され、埋め込みがチャンクごとに生成され、チャンクと埋め込みの両方がデータベースに保存され、一部のサービスで取得できるときに発生します。 ベクターデータベースの更新とは、最初に作成されたベクターデータベースにコンテンツを追加(または削除)することです。 これは、ベクターデータベースへのテキストの新しいチャンクの追加(または削除)および新しい埋め込みの作成(または削除)を意味します。
Visual Artificial Intelligence (AI)¶
DataRobotの機能。サポートされている画像タイプだけを使用するか、サポートされている他の特徴量型と組み合わせて、画像を入力として使用するモデルを作成できます。 この機能には、モデルのパフォーマンスを視覚的に評価するのに役立つ専門的なインサイト(画像埋め込み、アクティベーションマップ、ニューラルネットワークビジュアライザーなど)も含まれています。
W¶
ワードクラウド¶
モデルのリーダーボードタブ(解釈 > ワードクラウド)。最も関連度の高い語句がワードクラウド形式で表示されます。
ワークベンチ¶
ユーザーが特定の問題を解決するために必要なすべてのものを1つの場所からグループ化して共有できるようにすることで、反復的なワークフローをサポートするように最適化されたエクスペリメントベースの製品。 ワークベンチはユースケースごとに整理されており、各ユースケースには、0個以上のデータセット、モデル、ノートブック、およびアプリが含まれています。 ワークベンチは、 DataRobot Classicをベースにしています。
ワーカー¶
プロジェクトの作成、モデルのトレーニング、予測などに使用され、DataRobotプラットフォームを支える処理能力。 ワーカーは、タスクに割り当てられた処理能力を表します。 DataRobotでは、プロジェクトワークフローのさまざまなフェーズで、DSSワーカー(データセットサービスワーカー)、EDAワーカー、セキュアモデリングワーカー、クイックワーカーなどのさまざまな種類のワーカーが使用されます。
ラングリング¶
使いやすいGUI環境でデータをインポート、探索、および変換できるようにする機能。
X¶
XEMP(eXemplarベースのモデル予測の説明)¶
すべてのモデルで機能する予測の説明を計算するための方法。 予測の説明、SHAPも参照してください。
Z¶
Zスコア¶
保護された特徴量の特定のクラスが、母集団全体で「統計的に有意」であるかどうかを測定する指標。 バイアスと公平性のモデリングで使用されます。