Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

用語集

DataRobot 用語集では、DataRobot プラットフォームに関連する用語に対して、簡単な説明を提供しています。これらの用語は、データからデプロイにいたるまで、機械学習のすべてのフェーズで使用されています。

(英語表記に基づくアルファベット順)

すべて AIカタログ バイアスと公平性 Data Prep 特徴量探索 MLOps 予測 時間認識 Visual Artificial Intelligence (AI)

A


ACEスコア

ACEは交替条件付き期待値とも呼ばれます。特徴量とターゲットの相関関係を示す一変量の指標です。ACE スコアは、非線形関係性を検知できますが、単変量であるため、交互作用効果は検知しません。

集計イメージ特徴量

(Visual Artificial Intelligence (AI))そのセットの個々の要素が構成イメージ特徴量であるイメージ特徴量のセット。たとえば、イメージから抽出されたイメージ特徴量のセットには、以下を示す特徴量のセットが含まれる場合があります。

  1. イメージの個々のピクセルの色。
  2. イメージ内でエッジが存在する場所。
  3. イメージ内で面が存在する場所。

集計から、データ分析モデルの出力に対するその特徴量の影響を判断し、その影響をモデルの他の特徴量の影響と比較することができる場合があります。

AIカタログ

さまざまなオブジェクトタイプの定義およびそれらの関係性を含む登録済みオブジェクトコレクション。参照と検索が可能です。カタログに格納される項目は、データ接続、データソース、データのメタデータです。

AIM

探索的データ分析の第2フェーズ(EDA2)で、ターゲット特徴量との相互相関に基づいて特徴量の有用性を決定します。そのデータは、オートパイロット中にモデリングに使用される「有用な特徴量」を決定します。

交替条件付き期待値

ACEスコアを参照してください。

異常検知

データの異常検知に用いられる教師なし学習の一種であり、外れ値検知や新規性検知とも呼ばれ、不規則性の割合が低いデータや大量のラベルのないデータを使用する場合に有効です。

AnswerSet

(Data Prep)公開されたData Prepステップの結果。すべてのData Prepステップの結果をAnswerSetにエクスポートすることもできますし、レンズを作成してAnswerSetとしてエクスポートするステップのセットを指定することもできます。

APF

自動プロジェクトフローを参照してください。

ARIMA(自己回帰和分移動平均)

時系列モデルの一種で、ある系列のパターンのみに基づいて、その系列の将来の値を予測するモデル。

関連付けID

(MLOps)予測データセットの外部キーとして機能する識別子です。これによって、実測値をデプロイ済みのモデルから予測された値と一致させることができます。関連付けIDは、デプロイ済みのモデルの精度の監視に必要です。

AUC(ROC曲線下面積)

すべての可能なしきい値を考慮し、ROC曲線上の単一の値で性能を示す二値分類の一般的な誤差指標。これは、1と0を分離するモデルの能力を最適化することで機能します。曲線の下の面積が大きいほど、より精度の高いモデルであると言えます。

拡張知能

DataRobotは人工知能へのアプローチを強化しました。拡張知能により、モデルの構築とデプロイをより幅広く支援します。DataRobotプラットフォームは、データの取込みからモデルのトレーニングと予測、モデルに依存しない監視とガバナンスまで、AIのライフサイクルを完全に自動化し、管理します。機械学習モデルやAIアプリケーションを作成する際、ガードレールによって、常にデータサイエンスのベストプラクティスを実践できます。ユーザー全体で透明性が確保され、保存場所に関係なくデータを利用できます。これにより、ロックインを回避し、クラウドとオンプレミスで一貫性のある戦略的な運用を実現できます。

自動プロジェクトフロー(APF)

(Data Prep)精選されたデータフローを運用するための機能。APFを使用して、プロジェクト、データセット、AnswerSetの一連のデータ準備ステップをスケジュールします。その後、APFの監視機能を使用して実行を管理します。

AutoML(Automated Machine Learning)

特定のユースケースで最もパフォーマンスの高いモデルを特定することを目的とし、モデリング用のデータセットの準備やモデル選択プロセスの実行に関連するタスクの多くを自動化した上で、生成したモデル全体のパフォーマンスを決定するソフトウェアシステム。

AutoTS(Automated Time Series)

特徴量化、モデルの仕様、モデルのトレーニング、モデルの選択、検定、予測の生成など、予測モデルの構築に必要なすべてまたはほとんどのステップを自動化するソフトウェアシステム。

オートパイロット(フルオートパイロット)

DataRobotの「適者生存」モデリングモードで、指定されたターゲット特徴量に最適な予測モデルを自動的に選択し、増加し続けるサンプルサイズで実行します。つまり、初期段階では少ないサンプル数で多くのモデルを実行し、上位のモデルだけを次の段階に進めます。デフォルトでは、DataRobotは全データの16%でモデルを実行し、上位16モデルを次のステップに進め、それらを32%で実行します。その実行から上位8つのモデルが、データの64%を使用してDataRobotで実行されます。クイックおよび包括的も参照してください。

平均ベースライン

(時間認識)特徴量派生ウィンドウ内のターゲットの平均。

B


バックテスト

(時間認識)交差検定に相当する時系列検定方法。しかし、交差検定とは異なり、バックテストでは、データセットからランダムな行を選択するのではなく、特定のピリオドや期間を選択してテストに使用して、「トライアル」を行います。

基本データセット

(Data Prep)すべてのアクションが実行されるData Prepプロジェクトにインポートされたデータ。

バッチ予測

(MLOps、予測)大規模なデータセットで予測を作成する方法で、入力データを渡すと各行の予測結果が得られます。予測結果は出力ファイルに書き込まれます。ユーザーは、予測インターフェイスの経由でMLOpsによるバッチ予測を行うか、バッチ予測APIを使用して予測を自動化できます。予測データのソースと宛先を指定し、予測が実行される時期を決定することで、バッチ予測ジョブをスケジュールします。

BHG(ブラインド履歴ギャップ)

(時間認識)「ブラインドヒストリーギャップ」は、最近のデータへのアクセスの遅延によって生じるギャップをキャプチャします(「最新」が常に1週間前のデータである場合など)。特徴量派生ウィンドウに入力された値のうちの小さい方の値。ギャップがゼロの場合、「今日までのデータと今日のデータを使用」を意味し、1 のギャップは「昨日から始まるデータを使用」を意味し、その後は同様に続きます。

ブレンダー

2つ以上のモデルの予測を組み合わせることで精度を高めるモデル。オートパイロットの実行後、上位3つの通常リーダーボードモデル(PLS、GLM、および平均アンサンブル)と詳細アンサンブル(詳細平均、詳細GLM、およびENET)の上位8つのモデルを基にDataRobotが自動的に作成します。アンサンブルモデルとも呼ばれます。

ブループリント

入力された予測値やターゲットをモデルに変換する際に必要な多くのステップを図式化したもの。ブループリントは、モデルを学習させる際のエンドツーエンド手順の概要を表します。これらは前処理手順、アルゴリズム、後処理などです。ブループリント内の各ボックスは、複数手順を表す場合があります。リーダーボードでモデルをクリックすると、ブループリントのグラフィック表現を表示できます。ユーザーのブループリントも参照してください。

C


カタログ

AIカタログを参照してください。

Centroid

教師なし学習を使用して生成されたクラスターの中心。セントロイドはクラスターの多次元平均であり、その寸法は観測地(データポイント)です。

CFDS(カスタマーフェイシングデータサイエンティスト)

ユーザーと潜在的なユーザーの技術的な成功をサポートするDataRobotの従業員。CFDS は、DataRobot の完全なインテグレーションのためのデータサイエンス問題の構造化などのタスクを支援します。CFDSはユーザーの成功に情熱を注いでいます。

チャレンジャーモデル

(MLOps)現在配備されているモデル("champion"モデル)と比較することで、配備後も継続的に比較可能なモデル。デプロイされたモデルをシャドーイングするためにチャレンジャーモデルを提示し、チャンピオンモデルで行われた予測を再生して、より適合性の高い優れたDataRobotモデルがあるかどうかを判断します。

チャネル

あるモジュールの出力ポートと別のモジュールの入力ポートの間の接続。1つのモジュールの出力ポートからチャネルを介した別のモジュールの入力ポートへのデータの流れ。それらを結ぶ線で視覚的に表されます。

分類

値を離散的な最終結果またはクラスに分類する一種の予測問題。二値分類 問題は、予測しようとしているものが2つのクラス(「Yes」または「No」など)のいずれかである可能性があるデータセットです。多クラス分類 は、3つ以上の結果(「購入」、「販売」、または「保留」など)が考えられる分類問題です。

(Data Prep)ビジネスインテリジェンス(BI)ツールやデータ可視化ツール(Tableau®など)からData Prepのコンポーネントへのリンクです。 BIツールや可視化ツールのClicktoPrepリンクから、Data Prepプロジェクトの最終ステップであるData Prep Filtergram、またはData Prepプロジェクトの特定のステップに移動できます。Data Prepのデータに変更を加えてから、可視化されたものやレポートをBIツールまたは可視化ツールで再公開し、更新することができます。

クラスタリング

同様のデータのグループ化と自然セグメントの識別に使用される教師なし学習の形式。

COG(運用不可ギャップ)

(時間認識)予測ポイントの直後に「運用できないギャップ(Can't Operationalize Gap)」が発生します。これは、近すぎて使用できない期間です。たとえば、明日の人員の需要予測は、その予測に対するアクションを実施するには遅すぎることがあります。

共通イベント

(時間認識)データポイントがデータ内の大半の週に発生する場合、共通イベントとなります(例えば、通常の営業日や営業時間は共通ですが、週末にたまに発生するデータポイントは共通ではありません)。

Composable ML

データサイエンティスト向けに設計されたコード中心の機能。カスタムの前処理やモデリング手法を適用して、モデルトレーニングのブループリントを作成することができます。組み込みタスクやカスタムタスクを使って、新しいブループリントを作成し、さらにDataRobotの他の機能と連携させることで、機械学習パイプラインを補強・改善することができます。

包括的

モデルの精度を高めるために、最大のオートパイロットサンプルサイズですべてのリポジトリブループリントを実行するモデリングモード。

コンピュータービジョン

(Visual Artificial Intelligence (AI))イメージデータを分析および解釈するためにコンピューターシステムを使用すること。一般的に、コンピュータービジョンツールは、幾何学の原理を組み込んだモデルを使用して、コンピュータービジョンドメイン内の特定の問題を解決します。たとえば、コンピュータービジョンモデルをトレーニングして、オブジェクト認識(オブジェクトのインスタンスやイメージ内のオブジェクトクラスの認識)、識別(画像内のオブジェクトの個々のインスタンスの識別)、検知(画像内の特定のタイプのオブジェクトやイベントの検知)などを実行することができます。

コンピュータービジョンツール/技法

(Visual Artificial Intelligence (AI))イメージの前処理、特徴量の抽出、および検知/セグメンテーション機能を実行するツール(モデル、システムなど)。

混同行列

真値と予測値を比較した表。「混同行列」という名前は、モデルが2つの分類を混同している場合(1つのクラスをもう1つのクラスと混同してしまう場合)、行列で表現することによってわかりやすくすることに由来します。 混同行列は、DataRobot の ROC 曲線、Eureqa、および多クラスモデルの視覚化のための混同行列の一部として利用できます。

Continuous AI

(MLOps)スケジュールやイベント(精度の低下やデータドリフトなど)に基づいて運用モデルを更新する、MLOpsの再トレーニング戦略。また、Continuous AIでは、DataRobotのAutoMLを使用して、新しいチャレンジャーモデルを自動的に作成し、その使用を推奨しています。これらの戦略を組み合わせることで、高精度かつタイムリーな予測が可能になります。

資格情報

(AIカタログ)データ接続に対するアクションを認証および承認するために使用される情報。最も一般的な接続方法は、ユーザー名とパスワードによるものですが、その他の認証方法として、LDAP、Active Directory、Kerberosなどがあります。

交差検定

CVとも呼ばれます。モデルのパフォーマンスをテスト(検定)するために実行される検定パーティションの一種。検定データのサブセット(「分割」)を使用して、DataRobotは分割ごとに1つのモデルを作成し、その分割に割り当てられたデータを検定に使用し、残りのデータをトレーニングに使用します。デフォルトでは、DataRobotは5分割交差検定を使用し、リーダーボードにそれらの5つのスコアの平均値を表示します。検定も参照してください。

カスタム推論モデル

(MLOps)ユーザーが作成した事前学習済みのモデルで、Custom Model Workshop を介してファイルの集合体として DataRobot にアップロードすることができます。モデルアーティファクトをアップロードすることで、カスタム推論モデルの作成、テスト、およびデプロイをDataRobotの集中デプロイメントハブに一元化できます。

カスタムタスク

モデルレジストリに作成されたタスク(カスタムコード)。保存された後、Composable MLでブループリントを変更するときにタスクを使用できます。

CV

交差検定を参照してください。

D


データドリフト

(MLOps)運用中のモデルの予測値を作成するために使用される新しい推論データの値と、展開されたモデルのトレーニング用として当初使用されたトレーニングデータとの相違点。予測モデルは、トレーニングデータのパターンを学習し、その情報をもとに新しいデータのターゲット値を予測します。トレーニングデータと本番データが時間の経過とともに変化し、モデルの予測力が低下すると、モデル周辺のデータがドリフトしていると言及されます。データドリフトは、データ品質の問題、特徴量の構成の変化、さらにはターゲット特徴量のコンテキストの変化など、さまざまな理由で発生します。

データ管理

DataRobot内でのデータのロード、クリーニング、変換、および保存に関係する包括的な用語。また、データを収集、保存、使用、および削除する際に企業が従うルール、という意味もあります。

Data Prep

(旧Paxata)複数のソースから機械学習用のデータを収集、探索、準備することができるDataRobotのツールです。

データプレパレーション

元のデータを機械学習アルゴリズムで実行できるように変換して、インサイトを明らかにしたり、予測を行ったりするプロセス。「データ前処理」とも呼ばれます。

Data Prepライブラリ

(Data Prep)データセット(Data Prepプロジェクトから公開するAnswerSetを含む)の追加と管理を行うData Prepのコンポーネント(およびページ)。Data Prepウィンドウの左上にあるライブラリを選択すると、ライブラリにアクセスできます。さらにData Prepライブラリでは、データセットのエクスポート、自動化の設定、新しいバージョンの追加、データセットのプロファイル作成を行うことができます。

Data Prepプロジェクト

(Data Prep)プロジェクトを含むData Prepコンポーネント(およびページ)。Data Prepウィンドウの左上にあるプロジェクトを選択すると、すべてのプロジェクトにアクセスできます。プロジェクトページでは、自分のプロジェクトだけでなく、Data Prepインスタンスの他のユーザーのプロジェクトにアクセスし、管理することができます。プロジェクトページで新規プロジェクトを作成したり、ライブラリページでデータセットをアップロードしてプロジェクトを作成したりすることができます。

DataRobotユーザーモデル(DRUM)

Python、R、およびJavaカスタムモデルおよびタスクをローカルでテストできるツール。このテストによって、アップロードする前にDataRobotでカスタムモデルが正しく実行され、予測が作成されることを確認できます。

DataRobot University(DRU)

ビジネス上の問題を解決するための実践的なデータサイエンス教育を提供します。DRUは、ガイド付き学習、自習型およびインストラクター主導のコース、ラボ、および認定プログラムを、多くのトピックとスキルレベルにわたって提供しています。

データセット

特定の時点におけるデータ(1つのファイルまたは1つのデータソースのコンテンツ)。1つのデータソースで複数のデータセットを生成することができます。AIカタログでのデータソースの数は、各データセットで1つです。Data Prepでは、複数のデータソースから1つのデータセットを生成できます。AIカタログにおけるデータセットとは、カタログバージョンレコードと共に保存されたマテリアライズ済みデータです。1つのエントリーに複数のカタログバージョンレコードが関連付けられている場合、DataRobotでデータが再読み込みされたか、最新の状態に更新されたことを示します。古いバージョンは既存のプロジェクトをサポートするために保存されます。新しいプロジェクトでは、最新のバージョンが使用されます。データセットは、次のいずれかの状態です。

  • 「スナップショット作成済み」(マテリアライズ済み)データセットは、以前に取得および保存されたデータの不変スナップショットです。
  • 「リモート」(または未マテリアライズ)データセットは、データがオンデマンドで取得された場所(AIカタログ)で設定されています。

データ接続

データベースへの設定済み接続(名前、特定のドライバー、およびJDBC URLが含まれます)。DataRobot にデータ接続を登録すると容易に再使用することができます。1つのデータ接続には1つのコネクターがありますが、複数のデータソースを設定することができます。

データ ソース

バッキングデータ(指定したエンドポイント内のデータの場所)への設定済み接続。データソースは、SQL クエリーまたは選択されたテーブルおよびスキーマデータを使用して、モデリングまたは予測に使用するデータ接続から抽出するデータを指定します。たとえば、HDFS 上のファイルへのパス、S3 に保存されているオブジェクト、およびデータベース内のテーブルとスキーマなどを指定できます。1つのデータソースには1つのデータ接続と1つのコネクターがありますが、複数のデータセットを設定することができます。時間の経過と共にデータソースの特徴量と列が変化する可能性は低いのですが、行はデータの追加または削除に応じて変化します。

ディープラーニング

ニューラルネットワークアルゴリズムのいくつかの「レイヤー」を介してデータを実行するアルゴリズムのセット。各レイヤーは、データの簡略化された表現を次のレイヤーに渡します。ディープラーニングアルゴリズムはDataRobotのVisual Artificial Intelligence (AI)I機能に不可欠であり、その処理はトレーニングダッシュボードを視覚化することにより表示できます。

デプロイインベントリ

(MLOps)デプロイを管理するための中心ハブ。デプロイページにあるインベントリは、モデルの運用に関与するすべての利害関係者の調整ポイントとして機能します。インベントリから、デプロイされたモデルのパフォーマンスを監視し、必要に応じてアクションを実行することで、単一のポイントからアクティブにデプロイされたすべてのモデルを管理できます。

検知/セグメンテーション

(Visual Artificial Intelligence (AI))追加処理を目的とした入力vデータのサブセット選択を含むコンピュータービジョンの手法(イメージセット内の1つまたは複数のイメージ、イメージ内の領域など)。

ドライバー

(AIカタログ)DataRobotアプリケーションがデータベースとやり取りできるようにするソフトウェア。各データ接続は、(管理者が作成およびインストールした)1つのドライバーに関連付けられています。ドライバーの設定には、DataRobot 内の JAR ファイルストレージの場所、およびそのドライバーに関連付けられているその他の依存ファイルが保存されます。DataRobot は JDBC ドライバーをサポートします。

E


EDA(探索的データ解析)

データセットの解析および主要な特性のサマリーを作成するためのDataRobotのアプローチ。一般的に、EDA には2つの段階があります:

  • EDA1は、データのサンプルに基づくサマリー統計を提供します。EDA1では、DataRobotはデータをカウント、分類し、(該当する場合)データに自動的に特徴量の変換を適用します。
  • EDA2 は、EDA1で収集された統計の再計算ですが、ホールドアウトを除くデータセット全体を使用します。この解析結果が、モデル構築の基準となります。

アンサンブルモデル

アンサンブルを参照してください。

環境

カスタムタスクが実行されるDockerコンテナ。

EWMA(指数加重移動平均)

指数加重移動平均(EWMA)は、最新のデータポイントにより大きな加重と重要性を与え、時間の経過に伴うトレンドの方向を測定する移動平均です。「指数関数的」な側面は、以前の入力の加重係数が指数関数的に減少することを示します。これが重要なのは、そうしないと、より古い値よりも、非常に新しい値が分散に影響を与えなくなるからです。

F


公平性スコア

(バイアスと公平性)基礎となる公平性指標に基づいて、保護クラスに対するモデルの公平性を数値で計算したもの。

公平さのしきい値

(バイアスと公平性)モデルが各保護クラスの適切な公平性の範囲内で機能するかどうかを示す指標。保護クラスの公平性スコアやパフォーマンスには影響しません。

公平性の値

(バイアスと公平性)最も優位な保護クラス(すなわち、最も高い公平性スコアを持つクラス)に対して正規化された公平性スコア。

好ましい結果

(バイアスと公平性)モデルにとって好ましい結果として扱われるターゲットの値。二値分類モデルからの予測は、保護されたクラスにとって好ましい結果(良い/好ましい)または好ましくない結果(悪い/望ましくない)として分類できます。

FDW

特徴量派生ウィンドウを参照してください。

特徴量

「特徴量」または「特徴量変数」とも呼ばれるデータセットの列。ターゲット特徴量は予測するデータセットの列名です。

特徴量の派生ウィンドウ

(時間認識)FDWとも呼ばれます。モデリングデータセットの特徴量を派生させるためにモデルが使用する過去の値のローリングウィンドウ。たとえば、予測ポイントに関連するウィンドウは、モデルが予測に使用する最近の値の数を定義します。

特徴量エンジニアリング

データセットに追加の特徴量を生成し、その結果、モデルの精度と性能を向上させること。時系列と特徴量探索はどちらも、機能の基本として特徴量エンジニアリングに依存しています。

特徴量の抽出

(Visual Artificial Intelligence (AI))イメージ前処理(またはイメージ特徴量抽出およびイメージ前処理)を実行するモデルは、「イメージ特徴量抽出モデル」または「イメージ固有モデル」とも呼ばれます。

特徴量の抽出と削減(FEAR)

(時系列)時系列での特徴量の生成(ラグ、移動平均など)。新しい特徴量を(すぐに)抽出し、抽出された特徴量のセットを(後で)減らします。時系列の特徴量の派生を参照してください。

特徴量のインパクト

データセット内のどの特徴量がモデルの決定に最大のインパクトを与えるかを明らかにする測定値。DataRobotでは、測定値はリーダーボードで視覚化されて報告されます。

特徴量の補完

(時系列)時系列データ準備ツール使用時にすべての特徴量(ターゲットとその他)で補完を可能にするためフォワードフィリングを使用するメカニズム。それによって、欠損値がないデータセットとなります(フォワードフィルする値がない各系列の先頭の行送りの値は除く場合があります)。

特徴量セット

モデルの構築に使用されるデータセットからの特徴量のサブセット。DataRobotは、EDA2中に、すべての有益な特徴量、リーケージのリスクがあるものを除く有益な特徴量、元の特徴量のセット、および縮小されたセットを含むいくつかのセットを作成します。用途に応じて、プロジェクト別のセットを作成することもできます。

Filtergram

(Data Prep)データを変換するためのフィルターと、データを可視化するためのヒストグラムの両方の機能を持つData Prepの列ツール。Filtergramでは、変換前、変換中、変換後のすべてのデータを可視化することができます。

フィッティング

モデルフィッティングを参照してください。

予測距離

(時間認識)予測ウィンドウ内での相対的な位置を示す一意な時間ステップ。モデルは、各予測距離に1つの行を出力します。

予測ポイント

(時間認識)予測の作成元となるポイント。「今だったら…」ということを示す相対時間。DataRobotは、トレーニングデータ内のすべての潜在的な予測ポイントを使用してモデルをトレーニングします。運用環境では、通常、直近の時間です。

予測ウィンドウ

(時間認識)FWとも呼ばれます。予測ポイントから開始し、将来の予測の範囲(予測距離)を定義します(「最も注目すべき時間範囲」)。その後、その範囲に対してDataRobotによってモデルが最適化され、その範囲の平均でリーダーボード上でモデルが格付(ランキング)されます。

予測

(時間認識)時間に基づく将来の予測。最近の行からの入力を使用して、将来の値を予測します。Forecastingは予測のサブセットであり、観測値の傾向を使用して、期待される結果または期待される応答を特徴付けます。

フローズン実行

モデルの初期の小さなサンプルサイズベースの実行からパラメーター設定を「固定」するプロセス。より小さなサンプルに基づくパラメーター設定は、同じデータのより大きなサンプルでもうまく機能する傾向があるためです。

FW

予測ウィンドウを参照してください。

G


ガバナンスレンズ

(MLOps)デプロイの社会的および運用的側面をまとめるデプロイページ上のDataRobotのデプロイメントインベントリとしてフィルタリングされた画面。これらには、デプロイメントオーナー、モデルの構築方法、モデルの年齢、および信頼性のモニタリング状況などが含まれます。

ハイパーパラメーターに使用される網羅的な検索方法。

H


ホールドアウト

トレーニングおよび検定プロセス中にモデルが使用できないデータのサブセット。最適なモデルを選択した後でのみ、モデルのパフォーマンスの最終的な評価にホールドアウトスコアを使用します。

信頼性

(MLOps)モデルが不確実な予測を行ったり、初めて見るデータを受信した場合に、リアルタイムで認識できるようにするために、ユーザーが定義したデプロイメントルールの設定。データドリフトとは異なり、モデル信頼性は時間経過に伴う幅広い統計プロパティを扱うのではなく、個々の予測に対してトリガーされるため、異なるトリガーによるルールで必要な動作を設定することができます。

I


イメージデータ

(Visual Artificial Intelligence (AI))デジタルイメージ(ビデオなど)のシーケンス、デジタルイメージのセット、単一のデジタルイメージ、および前記のいずれかの1つまたは複数の部分。デジタルイメージは、1つのファイルに格納されている画素(「ピクセル」)の整理されたセットを含むことがあります。ラスター形式(TIFF、JPEG、GIF、PNG、BMPなど)、ベクトル形式(CGM、SVGなど)、複合形式(EPS、PDF、PostScript など)、およびステレオ形式(MPO、PNS、JPS など)を始めとする適切な形式とタイプのデジタルイメージファイルを使用できます。

イメージ前処理

(Visual Artificial Intelligence (AI))コンピュータービジョンの手法。これには、イメージの再サンプリング、ノイズ除去、コントラストの強調、およびスケーリング(スケール空間表現の生成など)の例が挙げられます。抽出される特徴量を以下に示します。

  • 低レベル:元のピクセル、ピクセルの明度、ピクセルの色、グラデーション、テクスチャ、色ヒストグラム、運動ベクトル、エッジ、ライン、コーナー、リッジなど。
  • 中レベル:形状、表面、体積など。
  • 高レベル:オブジェクト、シーン、イベントなど。

サンプル内予測

(予測)トレーニングセット外でトレーニングされたモデル(検定と、場合によってはホールドアウト)。DataRobotはデフォルトで設定されたトレーニングの64%を使用します。64%以上のサンプルサイズでモデルがトレーニングされた場合、DataRobotは、サンプル予測がそのスコアに使用されていることを示すアスタリスクで 検定 スコアにマークします。80%以上のデータでトレーニングする場合、ホールドアウト スコアもアスタリスク付きになります。スタックされた(アウトオブサンプル)予測と比較します。

不規則的データ

(時間認識)一定の間隔および時間ステップが検知されないデータ。

K


KA

事前に既知の特徴量を参照してください。

事前に既知の特徴量

(時間認識)KAとも呼ばれます。休日の日付など、事前に値がわかっていて、ラグを取る必要のない特徴量のこと。例としては、翌週に製品が販売されることがわかっている場合、事前に価格情報を提供できます。

L


リーダーボード

あるプロジェクトでトレーニングを受けたブループリント(モデル)のリストで、プロジェクトの評価指標に応じてランク付けされています。

リーケージ

ターゲットリーケージを参照してください。

学習曲線

データセットのサイズを大きくすることに意味があるかどうかを判断するためのグラフ。学習曲線グラフは、パフォーマンスが良いモデルについて、サンプルサイズが変化するにつれモデルパフォーマンスがどのように変化するかを示します。

レンズ

(Data Prep)プロジェクトの特定のステップで、データセットのスナップショットを生成できるようにするData Prepの機能。レンズを作成して、AnswerSetに公開するプロジェクトのステップを特定します。

リフトチャート

モデルがターゲットの母集団をどの程度適切にセグメント化し、モデルの有効性を視覚化するのに役立つターゲットをどの程度予測する能力があるかを示します。

リンクキー

(特徴量探索)結合して関係性を作成するためのキーとして使用されるプライマリーデータセットの特徴量。

M


機械学習運用

MLOpsを参照してください。

管理エージェント

(MLOps)あらゆるタイプのインフラストラクチャのモデルデプロイを自動化するための標準メカニズムを提供するエージェント。管理エージェントは、APIを介してデプロイの正常性とステータスに関する定期的な更新を送信し、サービスの正常性ページ上のMLOpsイベントとして報告します。

手動

DataRobotがEDA2を完了し、モデリング用のデータを準備しても、モデル構築は実行しないモデリングモード。代わりに、ユーザーは、構築する特定のモデルをモデルリポジトリから選択します。

マテリアライズ済み

(AIカタログ)マテリアライズ済みデータは、DataRobotがデータアセットから取得し、現在カタログにコピーを保持しているデータです。スナップショットを参照してください。

メタデータ

(AIカタログ)データアセットの詳細(作成日、変更日、特徴量の数と型、スナップショットのステータスなど)。

指標

最適化指標を参照してください。

MLOps(Machine Learning Operations)

(MLOps)本番環境でMLアプリケーションを迅速にデプロイおよび管理するための、スケーラブルで管理された手段。

MLOpsエージェント

(MLOps)外部モデル(例えば、DataRobot MLOpsの範囲外で実行されているモデル)を監視および管理するための、Developer Toolsを介してアクセスするダウンロード可能なクライアントです。この機能により、これらのモデルによる予測や情報を、デプロイメントの一部として報告することができます。モデル管理ツールを使って、モデルがどこで実行されているかに関わらず、精度、データドリフト、予測分布、レイテンシーなどを監視することができます。

モデル/モデリング

トレーニングされた機械学習のパイプラインで、新しいデータをスコアリングできます。モデル(記述、予測、規範)はデータ分析の基礎となります。モデリングでデータからインサイトを抽出し、それを使用することで、より適切なビジネス上の意思決定が可能になります。アルゴリズムモデルは、トレーニングデータに基づいて、ターゲット特徴量に当てはまる可能性が高い結果を示します。アルゴリズムモデルは、データセットに含まれる様々な特徴量間の関係性やパターンを表現し、将来収集する同様のデータに適用できるようにします。これにより、パターンや関係性に基づいた意思決定を行うことができます。

モデルフィッティング

モデルがトレーニングされたデータと同様のデータをどれだけ適切に一般化するかの指標。よく適合したモデルは、より精度の高い結果をもたらします。過剰適合されたモデルは、データと過剰に一致します。適合が不十分なモデルは、十分に一致しません。

モデルレジストリ

(MLOps)DataRobotで使用される様々なモデルのための組織的なハブ。モデルは、デプロイ可能なモデルパッケージとして登録されます。登録には、使用可能な各パッケージがリストされています。各パッケージは、そのモデルのソースに関係なく同じように機能します。モデルレジストリには、カスタムモデルを作成してデプロイできるカスタムモデルワークショップも含まれています。モデルパッケージはモデルの種類に応じて、手動または自動で作成できます。

モデリングデータセット

(時間認識)元のデータセットを変換することで、データを将来の値に事前にシフトし、時系列のラグ特徴量を生成して、時系列分析のメタデータを計算します。一般に特徴量派生と呼ばれ、時系列で使用されますが、OTV では使用されません。特徴量派生プロセスで使用される演算子および作成される特徴量名のリストについては、時系列特徴量エンジニアリングのリファレンスを参照してください。

モデリングモード

DataRobotがモデルの構築に使用するトレーニングセットのサンプル割合を制御する設定。DataRobotにはオートパイロット、クイック(デフォルト)、手動、包括の4つのモデリングモードがあります。

モデルパッケージ

(MLOps)モデルレジストリに保存された関連付けされたメタデータを含むアーカイブ済みモデルアーティファクト。モデルパッケージはカスタムモデルのデプロイなどによって、手動または自動で作成できます。モデルパッケージをデプロイ、共有、および完全にアーカイブできます。

モジュール

パイプラインフローの1ステップを表す自己完結型コード。各モジュールは、入力と設定に基づいて異なるアクションを実行します。

監視エージェント

MLOpsエージェントを参照してください。

単調モデリング

特定のXGBoostモデルに、特定の特徴量とターゲットの間の単調な(常に増加または常に減少する)関係性のみを学習させる方法。

多クラス

分類を参照してください。

多ラベル

データセットの各行が1つ、複数、またはゼロのラベルに関連付けられている分類タスク。一般的なマルチラベル分類の問題は、テキストの分類(映画は「犯罪」と「ドラマ」の両方である)とイメージの分類(家と車が含まれるイメージ)です。

マルチモーダル

同一モデル内で、複数の特徴量の型を同時にサポートするモデルタイプ。

複数系列

(時間認識)共通の入力特徴量のセットに基づき、複数の時系列を含むデータセット(複数の店舗の売上を予測する場合など)。

N


N-gram

一連の単語。Nは単語の数です。たとえば、"machine learning"は2-gramです。テキスト特徴量は、自然言語処理(NLP)の準備としてn-gramに分割されます。

O


オフセット

モデリングで固定要素(Generalized Linear Modelまたは勾配ブースティングマシンモデルの係数1)として取り扱う必要のある特徴量。オフセットは、価格制限を組み入れるため、または既存のモデルをブーストするために使用することがあります。

最適化指標

モデルがどの程度実測値を予測しているかを判断するために、DataRobotで使用される誤差指標。ターゲット特徴量を選択した後、DataRobotはモデリングタスクに基づいて最適化指標を選択します。

OTV

(時間認識)時間外検定とも呼ばれます。時間に関連するデータをモデル化する手法。OTVでは、時系列のような予測は行われません。代わりに、個々の各行でターゲット値が予測されます。

過剰適合

モデルが学習データに適合しすぎたために、未知のデータに対して正確な性能を発揮できなくなってしまうこと。これは、モデルがトレーニングデータを長時間学習し、その「ノイズ」を学習(モデル化)してしまうことで、モデルが一般化できなくなることを意味します。

P


パーティション

精度を最大化するために分割されたトレーニングデータのセグメント。データセットのセグメント(分割)。トレーニング検定交差検定ホールドアウトも参照してください。

PID(プロジェクト識別子)

プロジェクトを一意に識別するために使用される内部識別子。

PII

氏名、写真、自宅住所、SSN(社会保障番号)またはその他の識別番号、生年月日などの個人を特定できる情報。DataRobot は、特定の種類の個人データの検知を自動化して、この情報がデータセットに誤って含まれることに対する保護レイヤーを提供します。

パイプライン

データに作用する一連の命令を持つ宣言型有向非巡回グラフ(DAG)。これは、データの流れを反映するチャネルによtって接続されるモジュールによって表されます。パイプラインはワークスペースに存在し、グラフタブでレンダリングされます。パイプラインはワークスペースの外のエクスポージャーではないため、AIカタログで直接検索できません。

ポータブル予測サーバー(PPS)

(MLOps)DataRobotモデルのパッケージ(.mlpkgファイル)を自己完結型のDockerイメージとして配布する DataRobotの実行環境。主な設置環境から切り離して運用することができます。

予測

(時間認識)時系列モデリング以外の場合。1つの行の情報を使用して、その行のターゲットを決定します。予測では、説明的な特徴量を使用して期待される出力または期待される応答(たとえば、将来の特定のイベント、性別、不正行為など)を特徴付けます。

予測環境

(MLOps、予測)DataRobot外の外部システムでデプロイ予測を管理するように設定された環境。予測環境を使用すると、デプロイ権限と承認プロセスを設定できます。設定した後、ポータブル予測サーバーで実行されるDataRobotモデルによる使用、およびMLOpsエージェントで監視されたリモートモデルでの使用のため、予測環境を指定できます。

予測の説明

予測を左右する要因を行単位で可視化したもの。変数がモデルに与える影響を定量的に示し、特定のモデルが特定の予測を行った理由を回答します。モデルが特定の予測を行った理由を理解することで、その予測が理にかなっているかどうかを検定することができます。SHAPXEMPも参照してください。

プライマリーデータセット

(特徴量探索)プロジェクトの開始に使用されるデータセット。

プライマリー特徴量

(特徴量探索)プロジェクトのプライマリーデータセットの特徴量。

プロジェクト

トレーニングに使用されるソースであるデータセットと、そのデータセットから構築されたモデルを含む、参照可能なアイテム。プロジェクトは、ホームページ、プロジェクトコントロールセンター、AIカタログから作成およびアクセスできます。また、ユーザー、グループ、組織で共有することができます。

保護クラス

(バイアスと公平性)保護された特徴量の1つのカテゴリー値。

保護された特徴量

(バイアスと公平性)モデル予測の公平性を測定するためのデータセット列。モデルの公平性は、データセットから保護された特徴量に対して計算されます。「保護された属性」とも呼ばれます。

Q


クイック(オートパイロット)

32%からモデルの実行を開始し、その後、64%に進む完全なオートパイロットモデリングモードの短縮バージョン。クイックでは、16 %のサンプルサイズは実行されません。

R


リアルタイム予測

(予測)低レイテンシーが必要な場合に予測を作成する方法。専用予測サーバーとスタンドアロン予測サーバーでのリアルタイムデプロイ予測用の予測APIを使用します。

受信者動作特性曲線

ROC曲線を参照してください。

連続値

連続した値(例えば、1.7、6、9.8...)を予測する予測問題の一種。

規則的データ

(時間認識)データセット内の行が等間隔の時間グリッド上にある場合、データは規則的です(データセット全体で1時間ごとに1つの行がある場合など)。

関係性

(特徴量探索)データセット間の関係性。各関係性には一組のデータセット、各データセットには結合キーが必要です。キーは、データセットの1つまたは複数の列で構成されます。対になっているデータセットのキーに順番が付けられます。キーの列数は同じでなければなりません。キーの組み合わせによって、2つのデータセットの結合方法が決まります。

リモートモデル

(MLOps)DataRobot以外の外部予測環境で実行されるモデルで、多くの場合MLOpsエージェントによって監視され、DataRobotに統計情報が報告されます。

リポジトリ

選択したプロジェクトで利用可能なモデリングブループリントのライブラリ(問題の種類に基づきます)。これらのモデルは、DataRobot によって選択および構築でき、ユーザーが実行することもできます。

ROC曲線

受信者動作特性曲線とも呼ばれます。確率スケールの任意の時点で、選択したモデルに関連する分類、パフォーマンス、および統計を調査するのに役立つ視覚化。DataRobot では、視覚化はリーダーボードから利用できます。

ロール

(AIカタログ)ロール(所有者、コンシューマー、エディター)は、特定のデータセットに対して各ユーザーに提供される機能を説明します。これは、データソースまたはデータ接続を作成するユーザーとエンドユーザーが同じでない場合や、アセットに複数のエンドユーザーが存在する場合に使用すると便利です。

S


サンプルサイズ

モデルの構築に使用されるトレーニングデータ全体の割合。この割合は、選択されたモデリングモードに基づくか、またはユーザーが選択できます。

スコアリング

データサイエンスでは、スコアリングには2つのタイプがあります。

  • モデルのスコアリング:データのパーティションに最適化指標を適用し、モデルのパフォーマンスを評価するために使用できる数値スコアを割り当てるプロセス。
  • スコアリングデータ:実用的なインサイトを明らかにするために、履歴データセットから構築されたアルゴリズムモデルを新しいデータセットに適用するプロセス。一般的なスコアリング方法は、バッチスコアリングとリアルタイムスコアリングです。

スコアリングコード

(MLOps、予測)DataRobotのモデルをアプリケーション以外で使用する方法。リーダーボードの一部のモデルでは、コマンドラインからデータのスコアリングに使用できるJavaコードを含むJARファイルをダウンロードして利用できます。

一部のモデルで利用可能な、Javaで動作するエクスポート可能なJARファイル。スコアリングコードJARには、DataRobot APIと同じ予測計算ロジックが含まれます(コード生成メカニズムによって、生成プロセスの一部として各モデルの精度がテストされます)。

季節性

(時間認識)1年、1週間、1日などの間の異なる時間で繰り返し観測される値の変動。周期性。たとえば、温度は高い季節性を示します(夏に高く、冬に低くなり、日中は高く、夜間は低くなります)。

セカンダリーデータセット

(特徴量探索)プロジェクトに追加されるデータセットで、プライマリーデータセットとの関係性の一部となるもの。

セカンダリー特徴量

(特徴量探索)プロジェクトのセカンダリーデータセットから派生した特徴量。

セグメント化された分析

(MLOps)データのドリフトと精度の統計情報を、ユニークなセグメントの属性および値にフィルタリングするデプロイユーティリティ。トレーニングや予測要求データの運用上の問題点を把握するのに有効です。

半規則的データ

(時間認識)ほとんどの時間ステップが定期的であるものの、いくつかの小さなギャップがある場合(営業日に適用されても週末には適用されない場合など)、データは半規則的です。

サービスの正常性

(MLOps)予測要求に迅速かつ確実に応答するデプロイメントの能力に関するメトリクスを追跡するデプロイメントのパフォーマンス監視コンポーネント。ボトルネックの特定や予測能力の評価に有効。

SHAP(Shapley値)

ツリーベース、ディープラーニング、および線形ベースのモデルの予測の説明を計算するための高速かつオープンソースの方法。SHAP は、各特徴量が平均とは異なる特定の予測にどの程度寄与するかを推定します。SHAP は加法性があり、上位 N 個の特徴量がどれだけ予測に寄与しているかを簡単に確認できます。予測の説明およびXEMPも参照してください。

スナップショット

(AIカタログ)スナップショットは、データソースから作成されたアセットです。たとえば、データセットの場合、特定の時点で取得されたデータベース全体または一部の(結合された)テーブルを表します。これはライブデータベースから取得されますが、データの静的な読み取り専用のコピーが作成されます。DataRobotでは、各データアセットタイプのスナップショットを作成します。ユーザーは、データをインポートするときにスナップショットを無効にできます。

SSE

スタンドアロンスコアリングエンジンを参照してください。

スタックされた予測

(予測)データの異なるサブセットに複数のモデルを構築する方法。あらゆる行に対する予測は、そのデータをトレーニングから除外したモデルを使用して行われます。この方法により、各予測は効果的に「アウトオブサンプル」予測になります。「サンプル内」予測と比較します。

スタンドアロンスコアリングエンジン

(MLOps、予測)SSEとも呼ばれます。スタンドアロン環境でDataRobotアプリケーションからエクスポートされたモデルを実行する予測方法。

定常性

(時間認識)系列の平均が時間の経過とともに変化しないこと。定常的な系列にはトレンドや季節的な変動がありません。

教師あり学習

ラベル付きデータを使用した機械学習。各レコードについて、データセットにはターゲット特徴量の既知の値が含まれています。トレーニング中にターゲットを知ることにより、モデルは他の特徴量がターゲットにどのように関連しているかを「学習」し、新しいデータを予測することができます。

T


ターゲット

予測するデータセットの列の名前。

ターゲットリーケージ

予測時に値がわからない特徴量を使用した場合の結果(例:トレーニングデータセットの「解約理由」の値を使用して顧客が解約するかどうかを予測)。モデルの特徴量セットの特徴量を含めると、予測に不適切な影響が生じ、過度に楽観的なモデルが生成されることがあります。

タスク

機械学習の手法の1つ。ワンホットエンコーディングのようなデータ変換や、XGBoost分類器をはじめとした推定などがあり、ブループリントの定義に用いられます。数百種類の組み込みタスクが用意されているほか、独自の(カスタム)タスクを定義することも可能です。

時系列

(時間認識)時間順にインデックスが付けられた一連のデータポイント。通常、等間隔で連続して行われる一連の測定。

時系列分析

(時間認識)データの意味のある統計やその他の特性を抽出するために時系列データを分析する方法。

時系列予測

(時間認識)以前に観測された値に基づいて将来の値を予測するためのモデルの使用。実際には、予測モデルは時系列機能を他のデータと組み合わせる場合があります。

時間ステップ

(時間認識)時系列の行間で検知された中央値の時間差。時間単位はDataRobotによって決定されます。時間ステップは、1 つの数値と 1 つの時間差単位で構成されます(15「分」など)。ステップが検知されない場合、そのデータセットは不規則的とみなされ、時系列モデルは無効化されることがあります。

トレーニング

ターゲットがわかっているデータに基づいてモデルを構築するプロセス。

トレーニングデータ

モデルの構築に使用されるデータの部分(パーティション)。検定交差検定ホールドアウトも参照してください。

転移学習

(Visual Artificial Intelligence (AI))プロジェクトで単一のデータセットによるトレーニングを行う際、役立つ可能性のある情報を抽出し、その学習を別の領域に適用すること。

トレンド

(時間認識)時間の経過に伴う増加または減少。トレンドには、直線的なものと非直線的なものがあり、変動を示すこともあります。トレンドを含む系列は定常的(静的)でありません。

チューニング

いくつかのハイパーパラメーターを変更し、データ上でアルゴリズムを再度実行してパフォーマンスを比較し、どのハイパーパラメーターのセットが最も精度の高いモデルになるかを決定する試行錯誤のプロセス。DataRobotでは、この機能は「高度なチューニング」タブから利用できます。

U


分析単位

(機械学習)予測を行う際の観測値。

未マテリアライズ

(AIカタログ)未マテリアライズのデータは、DataRobotがプロファイル統計のためにサンプリングしても、保持しないデータです。カタログにはデータへのポインターが格納され、データはプロジェクトの開始時またはバッチ予測を実行するときにユーザーのリクエストに応じて取得されます。

教師なし学習

既知の(ラベル付けされた)結果を参照せず、かつターゲットを指定せずにデータセットからパターンを推測する機能。教師なし学習の種類としては、異常検知、外れ値検知、新規性検知、カスタリングが挙げられます。異常検知では、DataRobotはデータセットで異常を検出するために教師なし学習を適用します。クラスタリングでは、DataRobotは、データ内の自然グループを識別するために教師なし学習を使用します。

ユーザーのブループリント

ユーザーが作成して、共有と変更できるようにAIカタログに保存したブループリント(および追加メタデータ)。これは、リポジトリまたはリーダーボードのモデルから使用できるブループリントとは異なりますが、どちらもユーザーブループリントの作成の基礎として使用できます。ブループリントも参照してください。

V


検定

検定(またはテスト)パーティションとは、トレーニングから除外され、モデルのパフォーマンスを評価するために使用されるデータのサブセクションのことです。このデータはモデルの構築に使用されていないため、モデルの正解率を偏りなく評価することができます。モデルを選択する際には、通常検定の結果を比較します。交差検定も参照してください。

特徴量

特徴量を参照してください。

W


ワーカー

DataRobotプラットフォームを支える処理能力で、プロジェクトの作成、モデルのトレーニング、予測などに使用されます。ワーカーは、タスクに割り当てられた処理能力を表します。DataRobot では、プロジェクトワークフローのさまざまなフェーズで、DSS ワーカー(データセットサービスワーカー)、EDA ワーカー、セキュアモデリングワーカー、クイックワーカーなどのさまざまな種類のワーカーが使用されます。

ワークスペース

データフローパイプラインを構築して実行するためのコンテナ。ワークスペースには、モジュールの仕様、接続、設定、およびデータアセットと資格情報への参照が含まれるパイプラインがあります。ワークスペースはカタログ上のエンティティであり、ワークスペース名、説明、タグで検索できます。ワークスペースは、S3などのファイルシステムでサポートされています。

X


XEMP(eXemplarベースのモデル予測の説明)

すべてのモデルで機能する予測の説明を計算するための方法。予測の説明およびSHAPも参照してください。

Z


Zスコア

(バイアスと公平性)保護された特徴量の特定のクラスが母集団全体で「統計的に有意」であるかどうかを測定する指標。


更新しました March 31, 2022
Back to top