用語集¶
DataRobot用語集は、DataRobotプラットフォームに関連する用語の簡単な定義を提供します。 これらの用語は、データからデプロイまで、機械学習のすべてのフェーズにまたがっています。
すべて エージェント API コードファースト データ MLOps モデリング 予測 時間認識
A¶
位置ごとの精度¶
モデルのリーダーボードタブ(評価 > 位置ごとの精度)。および、個々のモデル内の空間残差マッピングを提供するLocation AIのインサイト。
時系列の精度¶
モデルのリーダーボードタブ(評価 > 時系列の精度)。予測が時間とともにどのように変化するかを可視化します。
ACEスコア¶
交替条件付き期待値としても知られています。 特徴量とターゲットの相関関係を示す一変量の指標。 ACEスコアは、非線形関係性を検出できますが、単変量であるため、交互作用効果は検出しません。
実測値¶
予測結果を追跡できるMLモデルの実測値。 デプロイされたモデルの精度統計を生成するには、モデルの予測値と問題の実際の実測値を比較します。 予測データセットと実測値データセットの両方に関連付けIDが含まれている必要があります。これにより、データセット内の対応する行を照合して、モデルの精度を測定できます。
高度なチューニング¶
モデルの構築後に手動でモデルパラメーターを設定する機能。この機能を使用して、モデルのパフォーマンスを向上させるためのパラメーター設定の実験が可能です。
エージェント¶
複雑な複数ステップのタスクを自律的に実行するように設計された、DataRobot内のAI搭載コンポーネント。 エージェントには特定の目標、LLM、および一連のツールを設定でき、人間の直接的な介入なしに、データ準備ワークフローのオーケストレーション、モデリングエクスペリメントの実行、分析の生成などのアクションを実行できます。 エージェントは自律的な行動を示し、環境について推論し、意思決定を行い、フィードバックに基づいて戦略を適応させることができます。 複数のエージェントをエージェントワークフローに組み合わせて、コラボレーションと調整を通じてより高度なビジネス課題を解決することも可能です。
エージェントベースのモデリング¶
個々のエージェントとその相互作用をモデル化することで、複雑なシステムをシミュレートする計算モデリング手法。 エージェントベースのモデリングにより、個々のエージェントの動作から生じる創発的な挙動やシステムレベルの特性を研究できます。 DataRobotのプラットフォームでは、この機能を使用してビジネスプロセスをシミュレートし、エージェントの戦略をテストし、異なるエージェント設定がシステム全体のパフォーマンスにどのように影響するかを理解できます。
エージェント型AI¶
AIシステムが自律的なエージェントとして動作するように設計された人工知能のパラダイム。これらのシステムは、最小限の人間の監視で環境を認識し、目標について推論し、アクションを計画し、タスクを実行します。 エージェント型AIシステムは、独立した意思決定を行い、経験から学習し、目的を達成するために動作を適応させる能力を特徴としています。 DataRobotのプラットフォームにおけるエージェント型AIは、複雑なデータサイエンスワークフローの高度な自動化を可能にし、データの準備からモデルのデプロイ、監視までのエンドツーエンドのプロセスをAIシステムが処理できるようにします。
エージェントのワークフロー¶
ワークフロー内でタスクを実行し、意思決定を行うためにAIエージェントを活用するシステムであり、多くの場合、人間の介入を最小限に抑えます。 エージェントワークフローは、DataRobotのテンプレートとCLIを使用してローカルのIDEで構築でき、UIまたはコード内のガード(コンテンツの安全性やトピック制限のためのNVIDIA NeMoとの連携を含む)を用いたリアルタイムのLLM介入とモデレーションによって管理できます。
エージェントフレームワーク(AF)のコンポーネント¶
エージェントフレームワーク(AF)のコンポーネントは、洗練されたAIエージェントを構築するためのモジュール式のビルディングブロックを提供します。 AFのコンポーネントには、推論エンジン、メモリーシステム、アクションプランナー、通信モジュールが含まれ、これらを組み合わせてカスタムエージェントアーキテクチャを作成できます。 DataRobotのプラットフォームでは、AFのコンポーネントにより、異なるエージェント実装間での一貫性と相互運用性を維持しながら、特定の機能を備えた専門的なエージェントを迅速に開発できます。
エージェント・ツー・エージェント(A2A)¶
エージェント・ツー・エージェント(A2A)は、AIエージェント間の直接的な対話と調整を可能にする通信プロトコルとフレームワークを指します。 A2Aシステムは、複数のエージェント間での情報共有、タスクの委譲、共同の問題解決を促進します。 DataRobotのエージェントワークフローにおいて、A2A機能は、エージェントがシームレスに連携し、コンテキストと知識を共有し、セキュリティとガバナンスの制御を維持しながら複雑なマルチエージェント操作を調整することを可能にします。
集計画像特徴量:¶
Used with Visual Artificial Intelligence (AI), a set of image features where each individual element of that set is a constituent image feature. たとえば、画像から抽出された画像特徴量のセットには、以下を示す特徴量のセットが含まれる場合があります。
- 画像の個々のピクセルの色。
- 画像内でエッジが存在する場所。
- 画像内で面が存在する場所。
集計から、データ分析モデルの出力に対するその特徴量の影響を判断し、その影響をモデルの他の特徴量の影響と比較することができる場合があります。
AIカタログ¶
さまざまなオブジェクトタイプの定義およびそれらの関係性を含む登録済みオブジェクトコレクション。参照と検索が可能です。 カタログに格納される項目は、データ接続、データソース、データメタデータです。
AI tools¶
Software applications, libraries, and frameworks designed to support the development, deployment, and management of artificial intelligence systems. In DataRobot, AI tools include built-in capabilities for model building, evaluation, deployment, and monitoring, as well as integrations with external AI services and frameworks.
AIM¶
探索的データ解析の第2フェーズ(EDA2)で、ターゲット特徴量との相互相関に基づいて特徴量の有用性を決定します。 That data determines the "informative features" used for modeling during Autopilot.
アライメント¶
AIモデルの出力と動作を、組織固有の倫理ガイドライン、安全性要件、およびビジネス目標に適合するように誘導する重要なプロセス。 DataRobotでは、ガードレール、カスタムシステムプロンプト、コンテンツモデレーションポリシーなどの機能を通じて、アライメントが実用的に適用されます。 この実践は、偏った、安全でない、またはトピックから外れたモデルの回答によるリスクを軽減し、AIが企業にとって信頼できるツールであり続けることを保証します。
Alternating conditional expectations¶
ACEスコアを参照してください。
異常検知¶
データの異常検知に用いられる教師なし学習の一種。 異常検知は外れ値検知や新規性検知とも呼ばれ、不規則性の割合が低いデータや大量のラベルのないデータを使用する場合に有効です。 教師なし学習も参照してください。
アプリ¶
AIアプリを参照してください。
ARIMA(自己回帰和分移動平均)¶
A time series modeling approach available in DataRobot time series that analyzes historical patterns to forecast future values. DataRobot's ARIMA implementation automatically handles parameter selection and optimization, making it accessible for users without deep statistical expertise while maintaining the mathematical rigor of traditional ARIMA models.
Autoregressive¶
予測を連続的に行うモデリング手法であり、各予測は前の出力結果に依存します。 DataRobotでは、自己回帰モデルは時系列予測や自然言語処理のタスクでよく使われます。自己回帰モデルは、過去のデータからパターンを学習し、将来の値を予測したり、テキストを1ステップ生成したりします。 この手法により、一貫性のあるシーケンス生成が可能となり、高精度な予測において時間的関係性が不可欠な時間依存データで特に効果的です。
アセット¶
ユースケースのコンポーネントの1つで、ワークベンチ内で追加、管理、および共有できます。 コンポーネントには、データ、ベクターデータベース、エクスペリメント、プレイグラウンド、アプリ、ノートブックが含まれます。
関連付けID¶
予測データセットの外部キーとして機能する識別子です。これによって、実測値をデプロイ済みのモデルから予測された値と一致させることができます。 関連付けIDは、デプロイ済みのモデルの精度の監視に必要です。
AUC(曲線の下の領域)¶
可能性のあるすべてのしきい値を考慮し、性能をROC曲線上の単一の値に集約して表す二値分類の一般的な誤差指標。 これは、モデルの機能を最適化して1を0から分離することによって機能します。 曲線下の面積が大きいほど、モデルの精度は高くなります。
Audit log¶
A chronological, immutable record of all significant activities performed within the DataRobot platform by users and automated processes. It is essential for security audits, compliance reporting, and troubleshooting. Sometimes referred to as an "event log".
Augmented intelligence¶
DataRobotの人工知能を強化したアプローチが、現在のモデル構築とデプロイ支援業務を拡大します。 DataRobotプラットフォームは、データ取込み、モデルのトレーニングと予測、モデルに依存しない監視と管理にいたる一連のAIのライフサイクルを完全に自動化して管理します。 ガードレールは、機械学習モデルやAIアプリケーションを作成する際のデータサイエンスのベストプラクティスを保証します。 ユーザーペルソナ全体の透明性を確保し、保存場所に関係なくデータを利用できます。これにより、慣行的なロックインを回避できます。
自律性¶
AIエージェントが、絶え間ない人間の監視なしに独立して動作し、意思決定を行う能力。 自律的なエージェントは、変化する状況やフィードバックに基づいて行動を計画、実行、適応させることができます。 DataRobotのエージェントワークフローでは、安全で効果的な運用を確保するため、ガードレールと監視を通じて自律性と人間の監視のバランスが取られています。 自律性により、エージェントはビジネス目標や安全性要件との整合性を維持しながら、複雑で多段階のプロセスを処理できます。
認証¶
DataRobotのAPIおよびサービスへのアクセスを許可する前に、ユーザー、アプリケーション、またはシステムの身元を確認するプロセス。 DataRobotでは、プログラムによるアクセス用のAPIキー、Webアプリケーション向けのOAuth 2.0、エンタープライズIDプロバイダーとのシングルサインオン(SSO)連携など、複数の認証方法をサポートしています。 認証により、プロジェクト、デプロイ、プラットフォームリソースへの安全なアクセスが確保されるとともに、コンプライアンスおよびセキュリティ監視のための監査証跡が維持されます。
Authorization¶
認証後にユーザーやシステムがアクセスを許可される操作やリソースを決定するプロセス。
Automated retraining¶
スケジュールに基づいて、またはイベント(精度の低下やデータドリフトなど)に応じて運用モデルを更新する、MLOpsの再トレーニング戦略。 Automated Retraining also uses DataRobot's AutoML create and recommend new challenger models. これらの戦略を組み合わせることで、高精度が最大化され、かつタイムリーな予測が可能になります。
AutoML(Automated Machine Learning)¶
特定のユースケースで最もパフォーマンスの高いモデルを特定することを目的とし、モデリング用のデータセットの準備やモデル選択プロセスの実行に関連するタスクの多くを自動化した上で、生成したモデル全体のパフォーマンスを決定するソフトウェアシステム。 予測モデリングに使用されます。予測については 時系列も参照してください。
オートパイロット(フルオートパイロット)¶
DataRobot の「適者生存」モデリングモードで、指定されたターゲット特徴量に最適な予測モデルを自動的に選択し、増え続けるサンプルサイズで実行します。 つまり、初期段階では小さなサンプルサイズでより多くのモデルを実行し、上位モデルのみを次の段階に進めます。 フルオートパイロットでは、DataRobotは(デフォルトで)全データの16%でモデルを実行し、上位16モデルを進めてから、32%でモデルを実行します。 その実行から上位8つのモデルが、データの64%(または500MBのデータのどちらか少ないほう)を使用してDataRobotが実行されます。 クイック(オートパイロット)、包括的および 手動も参照してください。
AutoTS(自動化された時系列)¶
特徴量化、モデルの仕様、モデルのトレーニング、モデルの選択、検定、予測の生成など、予測モデルの構築に必要なすべてまたはほとんどのステップを自動化するソフトウェアシステム。 時系列も参照してください。
平均ベースライン¶
特徴量派生ウィンドウ内のターゲットの平均(時系列モデリング)。
B¶
Backend¶
The server-side components of LLM and AI applications that handle data processing, model inference, business logic, and database operations.
バックテスト¶
時間認識における交差検定に相当する検定方法。 Unlike cross-validation, however, backtests allow you to select specific time periods or durations for your testing instead of random rows, creating "trials" for your data.
ベースラインモデル¶
ナイーブモデルとも呼ばれます。 生成されたMLモデルまたは時系列モデルが、基本的な非MLモデルよりも高い精度で学習していることを確認するための比較ポイントとして使用される単純なモデル。
たとえば、連続値プロジェクト用に生成されたMLモデルは、ターゲットの平均値や中央値を予測するベースラインモデルよりも優れたパフォーマンスを発揮する必要があります。 時系列プロジェクト用に生成されたMLモデルは、最新の実測値を使用して将来を予測する(つまり、今日の実測値を明日の予測値とする)ベースラインモデルよりも優れたパフォーマンスを発揮する必要があります。
時系列プロジェクトの場合、ベースラインモデルを使用してMASE指標を算出します(ベースラインモデルに対するMAE指標の比率)。
バッチ予測¶
大規模なデータセットで予測を作成する方法で、入力データを渡すと各行の予測結果が得られます。予測結果は出力ファイルに書き込まれます。 ユーザーは、予測インターフェイスの経由でMLOpsによるバッチ予測を行うか、バッチ予測APIを使用して予測を自動化できます。 予測データのソースと宛先を指定し、予測が実行される時期を決定することで、バッチ予測ジョブをスケジュールします。
バイアス軽減策¶
保護された特徴量においてクラス間のバイアスを低減することを目的とした前処理または後処理タスクでブループリントを補強します。 バイアス軽減はモデルのリーダーボードタブ(バイアスと公平性 > バイアス軽減策)でも可能で、オートパイロットが終了した後、軽減手法を適用できます。
Bias vs accuracy¶
バイアス対精度チャートは、予測精度と公平性の間のトレードオフを表しており、保護された特徴量に関する各モデルの精度スコアと公平性スコアの手動で記録する必要がなくなります。
Bias (AI bias)¶
Systematic prejudice in AI model outputs that reflects unfair treatment of certain groups or individuals. AI bias can manifest in various forms, including gender bias, racial bias, or socioeconomic bias, and can result from biased training data, model architecture, or deployment contexts. DataRobot provides tools and practices to detect, measure, and mitigate bias in AI systems.
Blind history¶
"Blind history", used in time-aware modeling, captures the gap created by the delay of access to recent data (e.g., "most recent" may always be one week old). これは、特徴量派生ウィンドウで指定された値のうち小さい方から予測ポイントまでの期間として定義されます。 ギャップが0の場合は「今日とそれ以前のデータを利用」、ギャップが1の場合は「昨日からのデータを利用」というふうになります。
アンサンブル¶
2つから8つのモデルの予測を組み合わせることで、精度が高まる可能性があるモデル。 DataRobotでは、オートパイロットの一部として、通常のリーダーボードモデル(AVG、GLM、ENETアンサンブル用)の上位3つに基づいて、アンサンブルモデルを自動作成するように設定できます。 アンサンブルモデルは手動で作成することもできます。
ブループリント¶
ブループリントは、入力された予測変数と目標値をモデルに変換するために必要な多くのステップをグラフィカルに表現したものです。 前処理ステップ、アルゴリズム、後処理ステップを含めた、モデルフィッティングのためのエンドツーエンドの手順の概要を示しています。 ブループリント内の各ボックスは、複数手順を表す場合があります。 リーダーボードでモデルをクリックすると、ブループリントのグラフィック表現を表示できます。 See also user blueprints.
C¶
Caching strategies¶
Techniques for storing frequently accessed LLM responses, embeddings, or intermediate results to improve performance and reduce computational costs.
Canary deployment¶
A deployment strategy for LLM and AI models that gradually rolls out new versions to a small subset of users before full deployment, allowing for early detection of issues.
「運用化できない」期間¶
「運用化できない」期間とは、予測ポイントの直後から予測ウィンドウの開始までの空白期間を指します。 It represents the time required for a model to be trained, deployed to production, and to start making predictions—the period of time that is too near-term to be useful. たとえば、明日必要な人員を予測することは、その予測に基づいた行動をとるには遅すぎるかもしれません。
カタログ¶
AI カタログを参照してください。
Centroid¶
教師なし学習を使用して生成されたクラスターの中心。 セントロイドはクラスターの多次元平均であり、その寸法は観測地(データポイント)です。
CFDS(カスタマーフェーシングデータサイエンティスト)¶
DataRobotの担当者が、責任を持ってユーザーと潜在的なユーザーの技術的な成功をサポートします。 CFDSは、DataRobotの完全なインテグレーションのためのデータサイエンス問題の構造化などのタスクを支援します。 CFDSは、ユーザーの成功を確実にすることに情熱を注いでいます。
Chain-of-thought¶
言語モデルに、複雑な問題をステップバイステップの推論プロセスに分解するよう促すプロンプト技術。言語モデルに対し、複雑な問題をステップバイステップの推論プロセスに分解するように促すプロンプト技法 DataRobotのエージェントワークフローでは、意思決定において明示的な中間ステップを要求することで、思考連鎖プロンプトがエージェントの推論能力を強化し、より透明で信頼性の高い結果を導く。 この技術により、問題解決の精度が向上し、マルチステップタスクにおけるエージェントの動作のデバッグや検証がより適切に行えるようになります。
チャレンジャーモデル¶
現在配備されているモデル(「チャンピオン」モデル)と比較することで、デプロイ後も継続的に比較可能なモデル。 デプロイされたモデルをシャドーイングするためにチャレンジャーモデルを提示し、チャンピオンモデルで行われた予測を再実行して、より適合性の高い優れたDataRobotモデルがあるかどうかを判断します。
チャンピオンモデル¶
A model recommended by DataRobot—for a deployment (predictions) or for time series segmented modeling.
In MLOps, you can replace the champion selected for a deployment yourself, or you can set up Automated Retraining, where DataRobot compares challenger models with the champion model and replaces the champion model if a challenger outperforms the champion.
セグメント化されたモデリングワークフローでは、DataRobotは各セグメントのモデルを構築します。 DataRobotは、各セグメントに最適なモデル(セグメントチャンピオン)を推奨しています。 セグメントチャンピオンは、複合モデルにロールアップします。 セグメントごとに、チャンピオンとして異なるモデルを選択できます。これは、結合モデルで使用されます。
チャネル¶
あるモジュールの出力ポートと別のモジュールの入力ポートの間の接続。 1つのモジュールの出力ポートからチャネルを介した別のモジュールの入力ポートへのデータの流れ。それらを結ぶ線で視覚的に表されます。
チャット¶
単一の LLMブループリントに基づいてLLMエンドポイントにプロンプトを送信(その結果、LLMペイロードを送信)し、LLMからレスポンスを受信します。 この場合、以前のプロンプト/レスポンスのコンテキストがペイロードとともに送信されます。
チャンキング¶
非構造化テキストの本文を取得し、より小さな非構造化テキスト (トークン)に分割するアクション。
引用¶
LLMレスポンスの生成中に使用される ベクターデータベースからのテキストのチャンク。
CI/CD pipelines¶
Continuous Integration (CI) and Continuous Deployment (CD) pipelines that automate the building, testing, and deployment of LLM and AI applications to ensure reliable and consistent releases.
Circuit breaker¶
A crucial MLOps reliability pattern that safeguards a deployed model by monitoring for high error rates or latency. If a predefined failure threshold is breached, the circuit breaker automatically and temporarily redirects or pauses traffic to the unhealthy model instance. This action prevents a single failing model from causing a cascade failure across an application and allows the system time to recover, ensuring high availability for production AI services.
分類¶
A DataRobot modeling approach that predicts categorical outcomes from your target feature. DataRobot supports three classification types: binary classification for two-class problems (like "churn" vs "retain"), multiclass classification for multiple discrete outcomes (like "buy", "sell", "hold"), and unlimited multiclass for projects with numerous possible classes. DataRobot automatically selects appropriate classification algorithms from the Repository and provides specialized evaluation metrics like AUC and confusion matrices to assess model performance. 連続値も参照してください。
CLI¶
コマンドラインインターフェイス(CLI)ツールは、DataRobotのエージェントワークフローとプラットフォームサービスとのプログラムによる対話を可能にします。 CLIツールは、エージェント設定、ワークフロー実行、プラットフォーム管理機能へのスクリプト可能なアクセスを提供します。 DataRobotのエージェントエコシステムでは、CLIツールがエージェントのデプロイ、監視、メンテナンスタスクの自動化をサポートし、CI/CDパイプラインや自動化ワークフローとの統合を可能にします。
クラスタリング¶
同様のデータのグループ化と自然セグメントの識別に使用される教師なし学習の形式。
認知アーキテクチャ¶
AIエージェントがどのように情報を処理し、意思決定を行い、環境と相互作用するかを定義する基本的な構造的枠組み。 認知アーキテクチャは、エージェントの知的行動を可能にするコンポーネント、プロセス、関係を指定します。 DataRobotのエージェントワークフローでは、認知アーキテクチャがエージェントの推論、メモリー管理、学習、意思決定機能の基盤を提供し、高度な自律的行動を可能にします。
Codespace¶
クラウド上でホストされる、設定が完了した統合開発環境(IDE)。 コードを書き、テストし、デバッグするためのツールを提供します。 また、codespace内のノートブックがPythonユーティリティスクリプトやその他のアセットを参照できるように、ファイルストレージも提供しています。
係数¶
モデルのリーダーボードタブ(説明 > 係数)。モデルの改善や最適化に役立つ情報を視覚的に表示します。
Combined model¶
時系列セグメント化されたモデリングのワークフローで最終的に生成されたモデル。 セグメントモデリングでは、DataRobotはセグメントごとにモデルを構築し、各セグメントのチャンピオンモデルを1つのモデルに統合して、デプロイできるようにします。
共通イベント¶
週のデータの大部分が特定のデータポイントである場合、そのデータポイントは共通イベントになります(たとえば、通常の営業日と営業時間は共通イベントですが、不定期の週末に発生するデータポイントは非共通イベントです)。
コンプライアンスドキュメント¶
モデル開発について自動生成されるドキュメント。規制当局の検証に使用できます。 このドキュメントは、効果的なモデルリスク管理の構成について包括的なガイダンスを提供します。
Compliance reporting¶
The generation of reports and documentation required for regulatory compliance in LLM and AI deployments, including data usage, model performance, and security measures.
Composable ML¶
データサイエンティスト向けに設計されたコード中心の機能。カスタムの前処理やモデリング手法を適用して、モデルトレーニングのブループリントを作成することができます。 組み込みタスクやカスタムタスクを使って、新しいブループリントを作成し、さらにDataRobotの他の機能と連携させることで、機械学習パイプラインを補強・改善することができます。
包括的¶
モデルの精度を高めるため、オートパイロットの最大サンプルサイズですべてのリポジトリブループリントを実行するモデリングモード。
コンピュータービジョン¶
画像データを分析および解釈を目的としたコンピューターシステムの使用(Visual Artificial Intelligence (AI))。 一般的に、コンピュータービジョンツールは、幾何学の原理を組み込んだモデルを使用して、コンピュータービジョンドメイン内の特定の問題を解決します。 たとえば、コンピュータービジョンモデルをトレーニングして、オブジェクト認識(オブジェクトのインスタンスや画像内のオブジェクトクラスの認識)、識別(画像内のオブジェクトの個々のインスタンスの識別)、検出(画像内の特定のタイプのオブジェクトやイベントの検出)などを実行することができます。
コンピュータービジョンツール/技法¶
Tools—for example, models, systems—that perform image preprocessing, feature extraction, and detection/segmentation functions.
接続されたベクターデータベース¶
ベクターデータベースを作成するために、サポートされているプロバイダーに直接接続してアクセスする外部ベクターデータベース。 データソースがデータレジストリにローカルに保存されて、構成設定が適用され、作成されたベクターデータベースがプロバイダーに書き戻されます。 接続されたベクターデータベースは、プラットフォームとのリアルタイム同期を維持し、LLMの回答の基礎となる埋め込みとテキストチャンクへのシームレスなアクセスを提供します。
Configuration management¶
The practice of managing LLM and AI system configurations across different environments (development, staging, production) to ensure consistency and reduce deployment errors.
混同行列¶
実測値と予測値を比較した表。 The name "confusion matrix" refers to the fact that the matrix makes it easy to see if the model is confusing two classes (consistently mislabeling one class as another class). 混同行列は、ROC曲線、Eureqa、および多クラスモデルの視覚化のための混同行列の一部として利用できます。
接続インスタンス¶
ソースシステムへの接続方法に関するメタデータが設定されている接続(Snowflake接続のインスタンスなど)。
コンソール¶
コンソールは、デプロイ管理アクティビティのための中心的なハブです。 そのダッシュボードでは、デプロイされたモデルにアクセスして、さらに監視とリスク軽減を行うことができます。 また、予測アクティビティにアクセスでき、サーバーレスおよび外部の予測環境を表示、作成、編集、削除、または共有できます。
制約¶
モデルのリーダーボードタブ(説明 > 制約)。モデリングの前に高度なオプションで特徴量の制約が設定されている場合に、単調制約が適用された特徴量を確認できます。
Container orchestration¶
The automated management of containerized LLM and AI applications, including deployment, scaling, networking, and availability, typically using platforms like Kubernetes.
コンテキストウィンドウ¶
大規模な言語モデルが、1回のチャット会話でアクティブメモリーに保持できる情報量は限られている(トークンで測定)。 この「記憶」には、ユーザーのプロンプト、提供された最近の会話履歴、およびRAG(Retrieval Augmented Generation)を介して取得されたデータが含まれます。 コンテキストウィンドウのサイズは、長いドキュメントを処理したり、拡張された対話で一貫性を維持したりするモデルの能力を決定するため、LLMブループリントでは重要なパラメーターです。このウィンドウ外の情報は、次の回答を生成するときには考慮されません。
会話メモリー¶
AIシステムが、会話セッション(セッションに1回以上のチャット会話のターンが含まれることを意味する)内の以前のやり取りを記憶し、参照する能力。 会話メモリーはコンテキストの連続性を可能にし、AIが以前のやり取りを認識し続け、これまでの回答に基づいて会話を構築できるようにします。 DataRobotのチャットインターフェイスでは、会話メモリーが一貫性のある、コンテキストに関連した対話を維持するのに役立っています。
Cost allocation¶
The process of assigning LLM and AI service costs to different teams, projects, or business units for budgeting and chargeback purposes.
資格情報¶
データ接続の認証と承認アクションに使用される情報。 最も一般的な接続はユーザー名とパスワードですが、代替の認証方法にLDAP、Active Directory、Kerberosなどがあります。
Cross-class accuracy¶
モデルのリードボードタブ(バイアスと公平性 > クラス別の精度)。モデルにバイアスがある理由と、トレーニングデータのどこからバイアスを学習したかを示すのに役立ちます。 バイアスと公平性の設定を行う必要があります。
Cross-class data disparity¶
モデルのリーダーボードタブ(バイアスと公平性 > クラス間のデータの相違)。保護された各特徴量について、クラス別にセグメント化された評価指標とROC曲線関連のスコアを計算します。 バイアスと公平性の設定を行う必要があります。
交差検定(CV)¶
DataRobot's validation approach that tests model performance by creating multiple training and validation partitions from your data. DataRobot automatically implements five-fold cross-validation by default, building separate models on different data subsets and using the remaining data for validation. This process generates more reliable performance estimates than single validation splits, and DataRobot displays the average cross-validation scores on the Leaderboard to help you select the best model. 検定も参照してください。
カスタム推論モデル¶
カスタムモデルワークショップを介してファイルの集合体としてアップロードされた、ユーザーが作成した事前学習済みモデル。 モデルアーティファクトをアップロードすることで、カスタム推論モデルの作成、テスト、およびデプロイをDataRobotの集中デプロイハブに一元化できます。 推論モデルは、事前定義された入力/出力スキーマを含めることも、非構造化することもできます。 モデルトレーニングの前にカスタマイズするには、カスタムタスクを使用します。
Custom model environment¶
A versioned, containerized environment (e.g., a Docker image) that includes all the necessary libraries, packages, and dependencies required to run a custom model or task within DataRobot. Administrators manage these environments to ensure reproducibility and governance.
カスタムモデルワークショップ¶
モデルレジストリ内の、ユーザーが作成した事前学習済みモデルを、ファイルの集合体としてアップロードできる場所。 これらのモデルアーティファクトを使用して、DataRobotの一元化されたデプロイハブにカスタム推論モデルを作成、テスト、およびデプロイすることができます。
カスタムタスク¶
データ変換またはMLアルゴリズム(XGBoostやOne-hot encodingなど)。DataRobot内のMLブループリントのステップとして、またモデルのトレーニングにも使用できます。 タスクはPythonまたはRで記述され、カスタムモデルワークショップを介して追加されます。 保存された後、Composable MLでブループリントを変更するときにタスクを使用できます。 再トレーニングが不要な事前学習済みモデルをデプロイするには、カスタム推論モデルを使用します。
CV¶
交差検定を参照してください。
D¶
Data classification¶
The process of categorizing data based on sensitivity, regulatory requirements, and business value to determine appropriate handling, storage, and access controls for LLM and AI systems. DataRobot provides automated PII detection and data governance features to help organizations classify and protect sensitive information in their datasets.
データドリフト¶
運用中のモデルの予測値を作成するために使用される新しい推論データの値と、展開されたモデルのトレーニング用として当初使用されたトレーニングデータとの相違点。 予測モデルは、トレーニングデータのパターンを学習し、その情報をもとに新しいデータのターゲット値を予測します。 トレーニングデータと本番データが時間の経過とともに変化し、モデルの予測力が低下すると、モデル周辺のデータがドリフトしていると言及されます。 データドリフトは、データ品質の問題、特徴量の構成の変化、さらにはターゲット特徴量のコンテキストの変化など、さまざまな理由で発生します。
データ管理¶
DataRobot内でのデータのロード、クリーニング、変換、保存を含む包括的な意味で使われる用語。 また、データを収集、保存、使用、および削除する際に企業が従う慣行も指します。
データプレパレーション¶
このプロセスは、元のデータを機械学習アルゴリズムが実行できるポイントに変換して、インサイトの明確化と予測の実行を可能にします。 Also called "data preprocessing," this term covers a broad range of activities like normalizing data, standardizing data, statistically or mathematically transforming data, processing and/or preprocessing data, and feature engineering.
データ品質処理レポート¶
モデルのリーダーボードタブ(説明 > データ品質処理レポート)。トレーニングデータを分析し、各特徴量について特徴量名、特徴量の型、行数、パーセンテージ、データ変換情報を提供します。
データレジストリ¶
ワークベンチで、データセットを特定のユースケースにリンクできる、データセットの一元的なカタログ。
Data residency¶
The physical or geographical location where LLM and AI data is stored and processed, often subject to regulatory requirements and compliance standards. DataRobot supports various deployment options including cloud, on-premises, and hybrid configurations to meet specific data residency requirements.
Data retention policies¶
Policies that define how long LLM and AI data should be kept, when it should be archived, and when it should be deleted to comply with regulations and manage storage costs.
データラングリング¶
機械学習のユースケースに応じた適切な分析単位でデータセットを作成することを目的とした、データの準備作業。
DataRobot Classic¶
DataRobotの元のバリュードリブンAI製品。 機械学習のエクスペリメントと運用のための幅広い相互運用性とエンドツーエンドの機能を備えた機械学習を活用し、完全なAIライフサイクルプラットフォームを提供します。 DataRobot Classicは、 ワークベンチと呼ばれる新しいユーザーインターフェイスに移行中です。
DataRobotユーザーモデル(DRUM)¶
Python、R、およびJavaカスタムモデルおよびタスクをローカルでテストできるツール。 このテストによって、アップロードする前にDataRobotでカスタムモデルが正しく実行され、予測が作成されることを確認できます。
データセット¶
特定の時点におけるデータ(1つのファイルまたは1つのデータソースのコンテンツ)。 1つのデータソースで複数のデータセットを生成することができます。 AIカタログにおけるデータセットとは、カタログバージョンレコードと共に保存されたマテリアライズ済みデータです。 1つのエントリに複数のカタログバージョンレコードが関連付けられている場合、DataRobotでデータが再読み込みされたか最新の状態に更新されたことを示します。 古いバージョンは既存のプロジェクトをサポートするために保存されます。新しいプロジェクトでは、最新のバージョンが使用されます。 データセットは、次のいずれかの状態です。
- 「スナップショット作成済み」(マテリアライズ済み)データセットは、以前に取得および保存されたデータの不変スナップショットです。
- A "remote" (or unmaterialized) dataset has been configured with a location from which data is retrieved on-demand (AI Catalog).
データ接続¶
A configured connection to a database—it has a name, a specified driver, and a JDBC URL. DataRobotにデータ接続を登録すると容易に再使用することができます。 1つのデータ接続には1つのコネクタがありますが、複数のデータソースを設定することができます。
データソース¶
バックエンドのデータ(指定したエンドポイント内のデータの場所)への設定済み接続。 データソースは、SQLクエリーまたは選択されたテーブルおよびスキーマデータを使用して、モデリングまたは予測に使用するデータ接続から抽出するデータを指定します。 たとえば、HDFS上のファイルへのパス、S3に保存されているオブジェクト、およびデータベース内のテーブルとスキーマなどを指定できます。 1つのデータソースには1つのデータ接続と1つのコネクタがありますが、複数のデータセットを設定することができます。 時間の経過と共にデータソースの特徴量と列が変化する可能性は低いのですが、行はデータの追加または削除に応じて変化します。
データ段階¶
大規模なデータセットのマルチパートアップロードをサポートする中間ストレージ。大量のデータを処理するときに失敗する可能性を減らします。 アップロード時に、データセットは部分的にデータステージにアップロードされ、データセット全体が完成して完成すると、AIカタログまたはバッチ予測にプッシュされます。 最初の部分がデータステージにアップロードされた後はいつでも、システムはバッチ予測にデータステージからのデータを使用して予測を入力するように指示できます。
データストア¶
データが保存されるリモートの場所を表す一般的な用語。 データストアには、1つ以上のデータベース、またはさまざまな形式の1つ以上のファイルを含めることができます。
日付/時刻のパーティション¶
時間認識プロジェクトで唯一有効な分割手法 日付/時刻では、行は、例えばランダムではなく、時系列で バックテストに割り当てられます。 バックテストは、数、開始時刻と終了時刻、サンプリング方法などを設定可能です。
ダッシュボード¶
Visual monitoring interfaces that provide real-time insights into LLM and AI system performance, health, and operational metrics for administrators and stakeholders. DataRobot provides comprehensive dashboards for monitoring model performance, data drift, prediction accuracy, and system health across all deployments.
ディープラーニング¶
DataRobot's implementation of neural network architectures that process data through multiple computational layers. These algorithms power DataRobot's Visual Artificial Intelligence (AI) capabilities for image analysis and are available as blueprints in the model Repository. Users can monitor training progress and layer performance through the Training Dashboard visualization, making deep learning accessible without requiring expertise in neural network architecture design.
デプロイ(プレイグラウンドから)¶
LLMブループリントとそれに関連するすべての設定はレジストリに登録され、DataRobotの製品スイートでデプロイできます。
デプロイインベントリ¶
デプロイを管理するための中心的ハブ。 デプロイページにあるインベントリは、モデルの運用に関与するすべての利害関係者の調整ポイントとして機能します。 インベントリから、デプロイされたモデルのパフォーマンスを監視し、必要に応じてアクションを実行することで、単一のポイントからアクティブにデプロイされたすべてのモデルを管理できます。
検出/セグメンテーション¶
追加処理を目的とした入力画像データのサブセット選択を含むコンピュータービジョンの手法(画像セット内の1つまたは複数の画像、画像内の領域など)。
DAG(有向非巡回グラフ)¶
ワークフローを表現するために使用される数学的な構造で、ノードはタスクまたは操作を表し、エッジはそれらの間の依存関係を表す。 AIワークフローにおいて、DAGはタスクが循環依存関係なしに正しい順序で実行されることを保証し、データ前処理、モデルトレーニング、デプロイパイプラインのような複雑なマルチステッププロセスの効率的なオーケストレーションを可能にします。
Disaster recovery¶
Plans and procedures for recovering LLM and AI services after system failures, natural disasters, or other catastrophic events to ensure business continuity. DataRobot provides backup and restore capabilities, along with high availability configurations to minimize downtime and ensure continuous model serving.
Distributed tracing¶
A technique for monitoring and troubleshooting LLM and AI applications by tracking requests as they flow through multiple services and components.
ダウンロードタブ¶
モデルのリーダーボードタブ(予測 > ダウンロード)。モデルのアーティファクトをダウンロードできます。
ダウンサンプリング¶
スマートダウンサンプリングを参照してください。
ドライバー¶
DataRobotアプリケーションがデータベースとやり取りできるようにするソフトウェア。各データ接続は、(管理者が作成およびインストールした)1つのドライバーに関連付けられています。 ドライバーの設定には、DataRobot内のJARファイルストレージの場所、およびそのドライバーに関連付けられているその他の依存ファイルが保存されます。 DataRobotは、JDBCドライバーをサポートします。
動的データセット¶
動的データセットはソースデータへの「リアルタイム」接続ですが、DataRobotはプロファイル統計(EDA1)のためにデータをサンプリングします。 カタログにはデータへのポインターが保存され、プロジェクトの作成時などにリクエストに応じてデータを取得します。
E¶
EDA(探索的データ解析)¶
データセットの解析および主要な特性のサマリーを作成するためのDataRobotのアプローチ。 一般的に、EDAには2つの段階があります。
- EDA1は、データのサンプルに基づくサマリー統計を提供します。 EDA1では、DataRobotはデータをカウント、分類し、(該当する場合)データに自動的に特徴量の変換を適用します。
- EDA2はEDA1で収集された統計の再計算ですが、ホールドアウトを除くデータセット全体を使用します。 この解析結果は、モデル構築に使用される基準です。
埋め込み¶
テキストの数値(ベクター)表現、またはテキストの数値表現のコレクション。 埋め込みを生成するアクションは、非構造化テキストの チャンクを取得し、テキスト埋め込みモデルを使用してテキストを数値表現に変換することを意味します。 チャンクは埋め込みモデルへの入力であり、埋め込みはモデルの「予測」すなわち出力です。
エピソード記憶¶
特定の経験、出来事、過去の相互作用や状況に関するコンテキスト情報を記憶する記憶システム。 エピソード記憶によって、AIエージェントは特定の事例を思い出し、特定の経験から学び、コンテキスト上の知識を類似の状況に適用できます。 DataRobotのエージェントワークフローでは、エピソード記憶によって、エージェントが特定のユーザーとのやり取りや、タスクの成功例、将来の意思決定に役立つコンテキストの詳細を記憶できます。
エンドポイント¶
A specific URL where a service can be accessed. In machine learning, an endpoint is typically used to send data to a deployed model and receive predictions. It is the primary interface for interacting with a model programmatically via an API.
アンサンブルモデル¶
ブレンダーを参照してください。
環境¶
カスタムタスクを実行するDockerコンテナ。
環境管理¶
The practice of managing different environments (development, staging, production) for LLM and AI systems to ensure proper testing, deployment, and operational procedures.
ESDA¶
探索的空間データ分析(ESDA)は、Location AIの探索的データフェーズです。 DataRobot Location AIは、DataRobot AutoML環境内でESDAを実行するためのさまざまなツールを提供します。これには、ジオメトリマップの視覚化、カテゴリー型/数値主題図、大規模な地理空間データセットのスマートな集約などが含まれます。
Eureqa¶
Eureqa一般化加法モデル(Eureqa GAM)、Eureqa連続値、およびEureqa分類モデルのモデルブループリント。 これらのブループリントは、独自のEureqa機械学習アルゴリズムを使用して、予測精度と複雑さのバランスをとるモデルを構築します。
Event streaming¶
Real-time data processing systems that handle continuous streams of events from LLM and AI applications for monitoring, analytics, and operational insights.
EWMA(指数加重移動平均)¶
最新のデータポイントにより大きな加重と重要性を与え、時間の経過に伴うトレンドの方向を測定する移動平均。 「指数関数的」な側面は、以前の入力の加重係数が指数関数的に減少することを示します。 そうしないと、非常に新しい値が古い値よりも分散に影響を与えなくなるため、これは重要です。
エクスペリメント¶
DataRobotのモデリングプロセスを実行した結果である、ユースケースのアセット。 ユースケースには、0個以上のエクスペリメントを含めることができます。
Experiment tracking¶
The process of recording and managing metadata, parameters, and results from machine learning experiments to enable reproducibility and comparison.
探索的データインサイト¶
探索的データ解析(EDA)を参照してください。
外部ステージ¶
A designated location in a cloud storage provider (such as Amazon S3 or Azure) that is configured to act as an intermediary for loading and unloading data with a Snowflake database. When preparing data for a project in DataRobot, users may interact with an external stage to efficiently ingest large datasets from Snowflake or to publish transformed data back to the cloud environment.
F¶
公平性スコア¶
公平性メトリックに基づいた、保護されたクラスに対するモデルの公平性の数値計算。
公平性のしきい値¶
公平性のしきい値モデルが各保護クラスの適切な公平性の範囲内で機能するかどうかを示す指標。 保護クラスの公平性スコアやパフォーマンスには影響しません。
Fairness value¶
最も好ましい保護クラス(つまり、公平性のスコアが最も高いクラス)に対して正規化された公平性スコア。
Favorable outcome¶
モデルにとって好ましい結果として扱われるターゲットの値。バイアスと公平性モデリングに使用されます。 二値分類モデルからの予測は、保護されたクラスにとって好ましい結果(良い/好ましい)または好ましくない結果(悪い/望ましくない)として分類できます。
FDW¶
特徴量の派生ウィンドウを参照してください。
特徴量¶
「特徴量」または「特徴量変数」とも呼ばれるデータセットの列。ターゲット特徴量は予測するデータセットの列名です。
特徴量の派生ウィンドウ¶
FDWとも呼ばれ、時系列モデリングで使用されます。 モデリングデータセットの特徴量を派生させるためにモデルが使用する過去の値のローリングウィンドウ。 たとえば、予測ポイントに関連するウィンドウは、モデルが予測に使用する最近の値の数を定義します。
特徴量探索¶
特徴量探索は、多数のデータセットから新しい特徴量を検索し生成するので、多数のデータセットを1つに統合するために手動で特徴量エンジニアリングを実行する必要がなくなります。 これらの関係性は関係性エディターによって可視化され、最終的には、作成されたリンクから派生した特徴量が追加されます。
特徴量ごとの作用¶
A model Leaderboard tab (Understand > Feature Effects) that shows the effect of changes in the value of each feature on the model's predictions. 特徴量ごとの作用では、各特徴量とターゲットの間の関係性がモデルでどのように「理解」されているかを示すグラフが表示されます。特徴量は、特徴量のインパクトでソートされます。
特徴量エンジニアリング¶
データセットに追加で特徴量を生成し、その結果、モデルの精度と性能を向上させます。 時系列と特徴量探索はどちらも、機能の基礎として特徴量エンジニアリングに依存しています。
特徴量の抽出¶
Models that perform image preprocessing (or image feature extraction and image preprocessing) are also known as "image feature extraction models" or "image-specific models."
特徴量の抽出と削減(FEAR)¶
時系列モデリングでの特徴量の生成(ラグ、移動平均など) 新しい特徴量を(すぐに)抽出し、抽出された特徴量のセットを(後で)減らします。 詳しくはこちら:時系列特徴量の派生。
Feature flag¶
A DataRobot mechanism that allows administrators to enable or disable specific features for certain users, organizations, or the entire platform. Feature flags are used to manage phased rollouts, beta testing, and custom configurations. Toggling a feature flag is performed by DataRobot Support for SaaS customers.
特徴量のインパクト¶
データセット内のどの特徴量がモデルの決定に最大のインパクトを与えるかを明らかにする測定値。 DataRobotでは、測定値はリーダーボードで視覚化されて報告されます。
特徴量の補完¶
時系列データ準備ツール使用時にすべての特徴量(ターゲットとその他)で補完を可能にするためフォワードフィリングを使用するメカニズム。 それによって、欠損値がないデータセットとなります(フォワードフィルする値がない各系列の先頭の行送りの値は除く場合があります)。
特徴量セット¶
モデルの構築に使用されるデータセットからの特徴量のサブセット。 DataRobotは、EDA2中に、すべての有益な特徴量、リーケージのリスクがあるものを除く有益な特徴量、すべての元の特徴量の元のリスト、および縮小されたリストを含むいくつかのリストを作成します。 ユーザーは、プロジェクト固有のリストを作成することもできます。
Few-shot学習¶
プロンプトで提供される少数の例からタスクの実行を学習するモデルの能力。
Few-shotプロンプティング¶
プロンプト(入力プロンプトまたはシステムプロンプト)の中で、モデルの動作をガイドし、特定のタスクでのパフォーマンスを向上させるために、いくつかの例を提供する手法。 数ショットのプロンプトは、微調整を必要とすることなく、モデルが希望する出力形式やスタイルを理解するのを助け、新しいタスクやドメインへの迅速な適応に役立ちます。
ファインチューニング¶
事前にトレーニングされた基盤モデルを、対象となるデータセットでトレーニングを続けることにより、特定のタスクやドメインに適応させるプロセス。 DataRobotのプラットフォームでは、ファインチューニングにより、ユーザーは特定のユースケース向けに大規模な言語モデルをカスタマイズすることができ、一般的な機能を維持しながら、ドメイン固有のタスクのパフォーマンスを向上させることができます。 ファインチューニングは、既存のモデルウェイトを使用するプロンプトエンジニアリングとは異なり、モデルの内部パラメーターを変更し、特定のアプリケーション、業界、またはデータタイプに最適化された特殊なバージョンを作成します。
フィッティング¶
モデルフィッティングを参照してください。
予測距離¶
A unique time step—a relative position—within the Forecast Window in a time series modeling project. モデルは、各予測距離に1つの行を出力します。
予測ポイント¶
予測の作成元となるポイント。「今だったら...」ということを示す相対時間。DataRobotは、トレーニングデータ内のすべての潜在的な予測ポイントを使用してモデルをトレーニングします。 運用環境では、通常、直近の時間です。
予測値と実測値の比較¶
モデルのリーダーボードタブ(評価 > 予測値と実測値の比較)。時系列プロジェクトでよく使用され、予測ポイントから将来の時間までの予測の動きを比較できます。 一度に1つの予測を表示する 時系列の精度チャートと似ていますが、予測値と実測値の比較チャートでは1つのビューに複数の予測距離を表示します。
予測ウィンドウ¶
FWとも呼ばれ、時系列モデリングで使用されます。 Beginning from the Forecast Point, defines the range (the Forecast Distance) of future predictions—"this is the range of time I care about." DataRobot then optimizes models for that range and ranks them on the Leaderboard on the average across that range.
予測¶
時間に基づく将来の予測。最近入力された行を使用して将来の値を予測します。 Forecastingは予測のサブセットであり、観測値の傾向を使用して、期待される結果または期待される応答を特徴付けます。
基盤モデル¶
GPTやClaudeのような強力で大規模なAIモデルは、膨大なデータセットから学習した広範で汎用的な能力を提供します。 DataRobotプラットフォームでは、これらのモデルはLLMブループリントのコアコンポーネントまたは「基礎」として機能します。 基盤モデルとは、既製のソリューションではなく、プロンプト、RAG、微調整といった手法によって特定のビジネスニーズに合わせてカスタマイズできる、汎用性の高い出発点です。
FastAPI¶
Pythonを使用してAPIを構築するための、モダンで高性能なWebフレームワーク。 FastAPIは、自動APIドキュメント生成、型検証、および非同期サポートによる高性能を実現します。 DataRobotのエコシステムでは、FastAPIはカスタムAPIエンドポイント、マイクロサービス、およびエージェントワークフローとカスタムモデルのデプロイをサポートする統合レイヤーの構築に使用されます。
フローズン実行¶
A process that "freezes" parameter settings from a model's early, small sample size-based run. 小さいサンプルに基づくパラメーター設定は、同じデータの大きいサンプルでもうまく機能する傾向があるためです。
関数呼び出し¶
大規模な言語モデルが、ユーザーのリクエストや会話のコンテキストに基づいて、外部の関数やツール、APIを呼び出す機能。 DataRobotのエージェントワークフローでは、関数呼び出しによって、エージェントは、データ検索、数学的計算、APIインタラクション、システム操作など、テキスト生成以外のアクションを実行することができます。 これにより、エージェントは複雑なタスクを実行して、エンタープライズシステムと連携し、リアルタイムの情報に基づいて動的な回答を提供できます。 関数呼び出しは、会話型AIを、データを操作し外部サービスと対話できる実用的なシステムに変えます。
FW¶
予測ウィンドウを参照してください。
G¶
生成AI(GenAI)¶
トレーニングデータから学習したパターンに基づいて新しいコンテンツを生成する人工知能の一種。 DataRobotのプラットフォームでは、GenAIの機能にはテキスト生成、コンテンツ作成、LLMブループリントによるインテリジェントな回答が含まれます。 既存のデータを分析する従来の予測モデルとは異なり、GenAIはプロンプトを通じて新しいアウトプットを作成し、コンテンツ生成、分析、自動化された意思決定プロセスのためのDataRobotワークフローに統合することができます。
ガバナンスレンズ¶
デプロイの社会的および運用的側面をまとめるデプロイページ上のDataRobotのデプロイインベントリとしてフィルタリングされた画面。 これらには、デプロイオーナー、モデルの構築方法、モデルの年齢、および信頼性のモニタリング状況などが含まれます。
GPU(グラフィックスプロセッシングユニット)¶
並列計算タスク向けに設計された専用プロセッサであり、特にディープラーニングやAIワークロードにおいて高い効果を発揮します。 GPUは行列演算や並列処理に優れており、大規模データセットを用いた複雑なモデルのトレーニングに最適です。 DataRobotでは、サポートされているディープラーニングのブループリントでGPUアクセラレーションを利用でき、テキストや画像、その他の計算負荷の高いタスクを処理するモデルのトレーニング時間を大幅に短縮できます。
ガードレール¶
AIシステムが有害または不適切なコンテンツを生成するのを防ぐ安全機構。 ガードレールには、コンテンツのフィルター、出力の検証、AIの回答が安全ガイドラインや組織のポリシーに沿ったものであることを保証する行動制約が含まれます。 DataRobotでは、ガードレールを設定することができ、責任あるAIの実践を維持し、安全でないまたは非倫理的なコンテンツの生成を防ぐのに役立ちます。
グリッド検索¶
ハイパーパラメーターに使用される網羅的な検索方法。
グラウンディング¶
言語モデルの回答が、トレーニングデータのみに依存するのではなく、特定の検証可能なデータソースに基づいていることを保証するプロセス。 DataRobotのプラットフォームでは、LLMを関連ドキュメント、知識ベース、企業データを含むベクターデータベースに接続するRAG(Retrieval Augmented Generation)ワークフローによってグラウンディングが達成されます。 この技術は、回答の正確さを向上させ、ハルシネーションを減らし、AIの出力が信頼できる情報源からの最新の関連情報で確実にコンテキスト化されるようにします。
グループ¶
A collection of users who share common permissions and access to projects, deployments, and other resources within an organization. Groups simplify user management by allowing administrators to manage permissions for multiple users at once.
H¶
ハルシネーション¶
言語モデルが、もっともらしく聞こえるが事実とは異なる、あるいは提供されたデータに基づかない情報を生成する場合。
Health checks¶
Automated monitoring systems that verify the health and availability of LLM and AI services by periodically checking their status and responsiveness.
High availability¶
System design principles and practices that ensure LLM and AI services remain available and operational even during hardware failures, software issues, or other disruptions.
ハイコード¶
カスタムプログラミングとアプリケーションの動作のきめ細かな制御を重視する開発アプローチ。 ハイコードソリューションは、複雑な要件に対して最大限の柔軟性とカスタマイズ機能を提供します。 DataRobotのエージェントワークフローでは、ハイコード機能により、上級ユーザーはカスタムロジックで高度に専門化されたエージェントを作成して、複雑なエンタープライズシステムと連携し、高度な意思決定アルゴリズムを実装することができます。
ホールドアウト¶
トレーニングおよび検定プロセス中にモデルが使用できないデータのサブセット。 最適なモデルを選択した後でのみ、モデルのパフォーマンスの最終的な見積もりにホールドアウトスコアを使用します。 検定も参照してください。
HTTP Status Codes¶
Standard response codes returned by DataRobot APIs to indicate the success or failure of requests. Common codes include 200 (success), 400 (bad request), 401 (unauthorized), 404 (not found), and 500 (server error). These codes help developers understand API responses and troubleshoot integration issues when working with DataRobot's REST APIs.
ヒューマン・イン・ザ・ループ(HILT)¶
AIエージェントのワークフローに人間の監視、検証、介入を組み込む統合パターン。 ヒューマン・イン・ザ・ループシステムは、人間がエージェントの決定を確認し、フィードバックを提供し、エラーを修正し、重要な決定ポイントでエージェントの行動を導くことを可能にします。 DataRobotのエージェントワークフローでは、ヒューマン・イン・ザ・ループ機能が品質管理を保証し、人間の専門知識から学習することを可能にし、機密性の高い、あるいは重大な意思決定に対する人間の権限を維持します。
信頼性¶
モデルが不確実な予測を行ったり、初めて見るデータを受信した場合に、リアルタイムで認識できるようにするために、ユーザーが定義したデプロイルールの設定。 Unlike data drift, model humility does not deal with broad statistical properties over time—it is instead triggered for individual predictions, allowing you to set desired behaviors with rules that depend on different triggers.
I¶
画像データ¶
A sequence of digital images (e.g., video), a set of digital images, a single digital image, and/or one or more portions of any of these—data used as part of Visual Artificial Intelligence (AI). A digital image may include an organized set of picture elements ("pixels") stored in a file. ラスター形式(TIFF、JPEG、GIF、PNG、BMPなど)、ベクトル形式(CGM、SVGなど)、複合形式(EPS、PDF、PostScriptなど)、およびステレオ形式(MPO、PNS、JPSなど)を始めとする適切な形式とタイプのデジタル画像ファイルを使用できます。
画像前処理¶
コンピュータービジョンの技術で、Visual Artificial Intelligence (AI)の一部です。 これには、画像の再サンプリング、ノイズ除去、コントラストの強調、およびスケーリング(スケール空間表現の生成など)の例が挙げられます。 抽出される特徴量を以下に示します。
- 低レベル:元のピクセル、ピクセルの明度、ピクセルの色、グラデーション、テクスチャ、色ヒストグラム、運動ベクトル、エッジ、ライン、コーナー、リッジなど。
- 中レベル:形状、表面、体積など。
- 高レベル:オブジェクト、シーン、イベントなど。
増分学習¶
A model training method specifically tailored for large datasets—those between 10GB and 100GB—that chunks data and creates training iterations. After model building begins, compare trained iterations and optionally assign a different active version or continue training. アクティブなイテレーションは、他のインサイトのベースとなり、予測に使用されます。
Infrastructure as Code (IaC)¶
The practice of managing and provisioning LLM and AI infrastructure through machine-readable definition files rather than physical hardware configuration or interactive configuration tools.
コンテキスト内学習¶
LLMの能力は、微調整を必要とせずに、プロンプトで提供された例から学習することです。 インコンテキスト学習は、モデルが現在の会話で与えられたコンテキストや例に基づいて行動を適応させることを可能にし、追加のトレーニングなしに新しいタスクを実行したり、特定の指示に従ったりすることを可能にします。
推論データ¶
実用的なインサイトを見つけるために、過去のデータセットから構築されたアルゴリズムモデルを適用することでスコアリングされたデータ。 スコアリングデータも参照してください。
サンプル内予測¶
Predictions made on data that the model has already seen during its training process. This typically occurs when a model is trained on a very high percentage of the available data (e.g., above 80%), leaving little or no "unseen" data for validation. In such cases, the validation score is calculated from the same data used for training, which can result in an overly optimistic assessment of model performance. In DataRobot, these scores are marked with an asterisk on the Leaderboard to indicate that they may not reflect true generalization performance. スタックされた(アウトオブサンプル)予測と比較します。
Integration patterns¶
Common architectural patterns and best practices for integrating LLM and AI services with existing systems, applications, and data sources.
インストラクションチューニング¶
LLMが特定の指示や命令に従うように、指示と回答のペアで微調整しながらトレーニングします。 命令チューニングは、ユーザーの要求を理解して実行するモデルの能力を向上させ、指示に従うことが重要な実用的なアプリケーションでより有用になります。
不規則なデータ¶
一定の間隔および時間ステップが検知されないデータ。 時間認識モデリングで使用されます。
J¶
JSON¶
A lightweight data format commonly used in DataRobot APIs for exchanging structured data between services. JSON is used throughout the DataRobot platform for configuration files, API responses, data transfer operations, and storing model metadata. The format provides a standardized way to represent complex data structures in a human-readable format that can be easily processed by applications.
K¶
KA¶
事前に既知の特徴量を参照してください。
Kernel¶
ノートブックでコードを実行するためのプログラミング言語をサポートします。
知識カットオフ¶
LLMのトレーニングデータが終了する日付のことで、それ以降に起こった歴史的な出来事、情報、発展についての知識が制限されます。 ナレッジカットオフの日付は、モデルの情報の時間的範囲を理解し、追加のコンテキストやリアルタイムのデータソースがいつ必要になるかを判断するために重要です。
事前に既知の特徴量¶
KAとも呼ばれ、時系列モデリングで使用されます。 事前に値が分かっていて、事前に知り得ない値として設定する必要のない特徴量(休日など)。 例としては、翌週に製品が販売されることがわかっている場合、事前に価格情報を提供できます。
L¶
大規模言語モデル(LLM)¶
人間の言語を理解し、生成し、処理することができる、広範なテキストデータセットでトレーニングされたディープラーニングモデル。 DataRobotのプラットフォームでは、LLMはLLMブループリントの中核を形成し、カスタマイズされたAIアプリケーションを作成するために、さまざまな設定、システムプロンプト、ベクターデータベースで構成することができます。 これらのモデルにより、DataRobotユーザーは、コンテキストを理解し、適切な回答を提供できるインテリジェントなチャットボット、コンテンツジェネレーター、分析ツールを構築することができます。
待ち時間¶
The time delay between sending a request to a model or API and receiving a response, often measured in milliseconds.
リーダーボード¶
プロジェクトのメトリックに従ってランク付けされた、プロジェクトのトレーニング済みブループリント(モデル)のリスト。
リーケージ¶
ターゲットリーケージを参照してください。
Learning curves¶
データセットのサイズを増やす価値があるかどうかを判断するためのグラフ。 学習曲線グラフは、パフォーマンスが最も優れたモデルについて、サンプルサイズが変化するにつれモデルパフォーマンスがどのように変化するかを示します。
ライセンス¶
A commercial agreement that grants access to the DataRobot platform. The license defines the scope of usage, including the number of authorized users, available features, and limits on computational resources.
リフトチャート¶
モデルがターゲットの母集団をどの程度適切に分割しているか、そしてターゲットを予測することができるかを示し、モデルの有効性を視覚化します。
リンクキー¶
(特徴量探索)結合して関係性を作成するためのキーとして使用されるプライマリーデータセットの機能。
LLMブループリント¶
保存されたブループリントは、 デプロイに使用できます。 LLMブループリントは、LLMからレスポンスを生成するために必要なものの完全なコンテキストを表し、結果の出力は、 プレイグラウンド内で比較できます。 この情報は、 LLMブループリント設定でキャプチャされます。
LLMブループリントのコンポーネント¶
LLMブループリント設定を構成するエンティティ。これは、ベクターデータベース、ベクターデータベースを生成する埋め込みモデルユーザー、LLM設定、システムプロンプトなどを指します。これらのコンポーネントは、DataRobot内でネイティブに提供することも、外部ソースから取り込むこともできます。
LLMブループリントの設定¶
レスポンスを生成するためにLLMに送信されるパラメーター(ユーザーが入力したプロンプトと連動)。 これには、単一のLLM、LLM設定、オプションでシステムプロンプト、さらにオプションでベクターデータベースが含まれます。 ベクターデータベースが割り当てられていない場合、LLMはトレーニングからの学習を使用してレスポンスを生成します。 LLM ブループリントの設定は変更可能なので、さまざまな設定を試すことができます。
LLM Gateway¶
DataRobotの集中型サービスで、統一認証、レート制限、リクエストルーティングをサポートし、外部プロバイダーからの複数の大規模言語モデルへのアクセスを管理します。 LLM Gatewayを利用することで、企業はさまざまなLLMプロバイダーとのやり取りを標準化することができ、同時にすべてのモデル利用においてセキュリティ、監視、コスト管理を維持することができます。
LLM payload¶
レスポンスを生成するためにLLMエンドポイントに送信される内容のバンドル。 これには、ユーザープロンプト、LLM設定、システムプロンプト、ベクターデータベースから取得した情報が含まれます。
LLMのレスポンス¶
LLMエンドポイントに送信されたペイロードに基づいてLLMから生成されたテキスト。
LLM設定¶
LLMがユーザープロンプトを入力してレスポンスを生成する方法を定義するパラメーター。 これらは、レスポンスを変更するためにLLMブループリント内で調整できます。 現在、これらのパラメーターは「Temperature」、「Top P」、「最大出力トークン数」設定で表されます。
Load balancing¶
The distribution of incoming requests across multiple LLM and AI service instances to optimize resource utilization, maximize throughput, minimize response time, and avoid overload.
Location AI¶
DataRobotは、一般的な地理空間形式のネイティブな取込みと座標の認識、 ESDA、空間的に明示的なモデリングタスクと可視化の提供により、地理空間分析をサポートします。
ログ¶
モデルのリーダーボードタブ(説明 > ログ)。成功した操作のステータスを緑色のINFOタグで、エラーに関する情報を赤いERRORタグでそれぞれ表示します。
Log aggregation¶
The centralized collection and storage of logs from multiple LLM and AI services to enable comprehensive monitoring, analysis, and troubleshooting.
Loss function¶
A method of evaluating how well a specific algorithm models the given data. It computes a number representing the "cost" of the model's predictions being wrong; the goal of training is to minimize this value.
ローコード¶
アプリケーションやワークフローを構築するために必要な手作業によるコーディングの量を最小限に抑える開発アプローチ。 ローコードプラットフォームは、迅速な開発を可能にするビジュアルインターフェイス、ドラッグ&ドロップコンポーネント、構築済みテンプレートを提供します。 DataRobotのエージェントワークフローでは、ローコード機能により、ユーザーは大規模なプログラミングではなく、設定インターフェイスを通じて洗練されたAIエージェントとワークフローを作成できるため、非技術系ユーザーでもエージェント型AIにアクセスできます。
M¶
Majority class¶
カテゴリー型特徴量(例:true/falseやcat/mouse)がある場合、頻度の高い値がマジョリティークラスです。 たとえば、データセットに80行の値catと20行の値mouseがある場合、catがマジョリティークラスです。 マイノリティークラスも参照してください。
「予測を作成」タブ¶
モデルのリーダーボードタブ(予測 > 予測を作成)。モデルを本番環境にデプロイする前に予測を行うことができます。
管理エージェント¶
MLOpsエージェントのtarballに含まれているダウンロード可能なクライアント(APIのキーとツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を管理することができます。 このツールは、あらゆるタイプのインフラストラクチャへのモデルデプロイを自動化する標準的なメカニズムを提供します。 管理エージェントは、デプロイの正常性とステータスに関する最新情報をAPI経由で定期的に送信し、それをMLOpsイベントとして [サービスの正常性] ページで報告します。
手動¶
手動DataRobotがEDA2を完了し、モデリングのためのデータを準備しますが、モデル構築は実行しないモデリングモードです。 ユーザーが構築する特定のモデルをモデルリポジトリから選択します。
マテリアライズ済み¶
DataRobotがデータアセットから抽出して、コピーをカタログに保存しているデータです。 スナップショットおよび マテリアライズされていないデータも参照してください。
メタデータ¶
データアセットの詳細(作成日、変更日、特徴量の数と型、スナップショットのステータスなど)。
指標¶
最適化指標を参照してください。
Metrics collection¶
The systematic gathering of performance, business, and operational metrics from LLM and AI systems to enable monitoring, analysis, and decision-making.
マイノリティークラス¶
カテゴリー型特徴量(例:true/falseやcat/mouse)がある場合、頻度の低い値がマイノリティークラスです。 たとえば、データセットに80行の値catと20行の値mouseがある場合、mouseがマイノリティークラスです。 マジョリティークラスも参照してください。
MLOps(Machine Learning Operations)¶
本番環境でMLアプリケーションを迅速にデプロイおよび管理するための、スケーラブルで管理された手段。
マルチエージェントフロー¶
複数のAIエージェントが協働して複雑な問題を解決するためのワークフローパターンで、タスクを特化したエージェントに分担させます。 各エージェントは特定の能力と責任を持ち、全体的な目的を達成するためにコミュニケーションをとり、調整します。 マルチエージェントフローは、異なる専門性を持つエージェントの強みを活用することで、より高度な問題解決を可能にします。 エージェントのワークフローも参照してください。
MLOpsエージェント¶
The downloadable package (tarball) that contains two clients: the Monitoring Agent and the Management Agent. The MLOps Agent enables you to monitor and manage external models (i.e., those running outside of DataRobot MLOps) by providing these tools for deployment, monitoring, and reporting. See also Monitoring Agent and Management Agent.
モデルコンテキストプロトコル(MCP)サーバー¶
モデルコンテキストプロトコル(MCP)サーバーは、AIエージェントが外部のシステムやデータソースとやりとりするための標準化されたインターフェイスを提供します。 MCPサーバーは、エージェントがタスクを達成するために必要なツール、データベース、API、その他のリソースへの安全で制御されたアクセスを可能にします。 DataRobotのエージェントワークフローでは、MCPサーバーがセキュリティとガバナンスを維持しながら、エージェントとエンタープライズシステムとのシームレスな連携を促進します。
モデル¶
A trained machine learning model that can make predictions on new data. In DataRobot, models are built using various algorithms and can predict outcomes like customer churn, sales forecasts, or fraud detection.
Model approval workflows¶
Structured processes for reviewing, validating, and approving LLM and AI models before deployment to production, ensuring quality, compliance, and business alignment.
Model catalog¶
A centralized repository that provides a comprehensive view of all available LLM and AI models, including their versions, metadata, performance metrics, and deployment status.
モデル比較¶
異なる評価ツールを使用して2つのモデルを比較できるリーダーボードタブ。ビジネスリターンが最も高いモデル、またはアンサンブルモデルの候補を特定するのに役立ちます。
モデルのアライメント¶
AIモデルが人間の価値観や意図に従って行動することを保証する技術。 モデルのアライメントには、モデルが有用で、正直で、無害な出力を生成し、生産環境における有害または意図しない動作のリスクを低減するための、トレーニングと微調整のプロセスが含まれます。
Model deprecation¶
The process of phasing out and retiring old LLM and AI models from production use, including communication to stakeholders and migration strategies.
モデルフィッティング¶
トレーニングされたデータと同様のデータをどれだけ適切に一般化するかの指標。 適切に適合されたモデルは、より精度の高い結果を生成します。 過剰適合されたモデルは、データと過剰に一致します。 A model that is underfitted doesn't match closely enough.
モデル情報¶
モデルのリーダーボードタブ(説明 > モデル情報)。モデルファイルサイズ、予測時間、サンプルサイズなど、特定のモデルの概要を表示します。
モデル系統¶
The complete history and provenance of LLM and AI models, including their training data, algorithms, parameters, and evolution over time for audit and compliance purposes. DataRobot tracks model lineage through the Model Registry, maintaining detailed records of training data, feature engineering steps, model versions, and deployment history for comprehensive audit trails.
モデル概要¶
モデルのリーダーボードを表示するエクスペリメント内のページ。モデルを選択すると、そのモデルの視覚化が表示されます。
モデルパッケージ¶
モデルレジストリに保存された関連付けされたメタデータを含むアーカイブ済みモデルアーティファクト。 モデルパッケージはカスタムモデルのデプロイなどによって、手動または自動で作成できます。 モデルパッケージをデプロイ、共有、および完全にアーカイブできます。
モデルレジストリ¶
DataRobotで使用される様々なモデルのための組織的なハブ。 モデルは、デプロイ可能なモデルパッケージとして登録されます。レジストリには、使用可能な各パッケージが一覧表示されます。 各パッケージは、そのモデルのソースに関係なく同じように機能します。 モデルレジストリには、カスタムモデルを作成してデプロイできるカスタムモデルワークショップも含まれます。 モデルパッケージはモデルの種類に応じて、手動または自動で作成できます。
モデルのスコアリング¶
データのパーティションに最適化指標を適用し、モデルのパフォーマンスを評価するために使用できる数値スコアを割り当てるプロセス。
Model versioning¶
The systematic tracking and management of different versions of LLM and AI models to enable rollbacks, comparisons, and controlled deployments.
モデリング¶
The process of building predictive models using machine learning algorithms. This involves training algorithms on historical data to identify patterns and relationships that can be used to predict future outcomes. DataRobot automates much of this process through AutoML, allowing users to build, evaluate, and deploy predictive models efficiently.
モデリングデータセット¶
元のデータセットを変換することで、データを将来の値に事前にシフトし、時系列のラグ特徴量を生成して、時系列分析のメタデータを計算します。 一般に特徴量派生と呼ばれ、時系列で使用されますが、OTVでは使用されません。 特徴量派生プロセスで使用される演算子および作成された特徴量名のリストについては、時系列特徴量エンジニアリングのリファレンスを参照してください。 FEARも参照してください。
モデリングモード¶
DataRobotがモデルの構築に使用するトレーニングセットのサンプルパーセンテージを制御する設定。 DataRobotは、オートパイロット, クイック(デフォルト)、手動、および包括的モードの4つのモデリングモードを提供します。
モデレーション¶
モデルの出力が安全性、倫理、およびポリシーガイドラインに準拠していることを確認するために、監視とフィルターを行うプロセス。
監視エージェント¶
MLOpsエージェントのtarballに含まれているダウンロード可能なクライアント(APIのキーとツールからアクセス可能)。外部モデル(つまり、DataRobot MLOpsの外部で実行されているもの)を監視することができます。 この機能により、これらのモデルによる予測や情報を、デプロイの一部として報告することができます。 このツールを使えば、モデルがどこで実行されているかに関わらず、精度、データドリフト、予測分布、レイテンシーなどを監視することができます。
単調モデリング¶
特定のXGBoostモデルに、特定の特徴量とターゲットの間の単調な(常に増加または常に減少する)関係性のみを学習させる方法。
多クラス¶
分類を参照してください。
多ラベル¶
データセットの各行が1つ、複数、またはゼロのラベルに関連付けられている分類タスク。 一般的な多ラベル分類の問題は、テキストの分類(映画は「犯罪」と「ドラマ」の両方である)と画像の分類(家と車が含まれる画像)です。
マルチモーダル¶
同一モデル内で、複数の特徴量の型を同時にサポートするモデルタイプ。
複数系列¶
入力特徴量の共通セットに基づいて複数の時系列を含むデータセット(複数の店舗の販売量を予測する場合など)。
いいえ¶
ナイーブモデル¶
ベースラインモデルを参照してください。
NAT¶
NAT(Neural Architecture Transfer)は、学習した表現やアーキテクチャを異なるAIモデルやタスク間で効率的に転送することを可能にします。 NAT技術は、エージェントが完全に再トレーニングすることなく、事前にトレーニングされたコンポーネントを活用し、特定のユースケースに適応させることを可能にします。 DataRobotのエージェントワークフローでは、NAT機能により、汎用モデルからドメイン固有のアプリケーションに知識を転送することで、特化型エージェントの迅速なデプロイが可能になります。
NextGen¶
刷新されたDataRobotのユーザーインターフェイス。エクスペリメントベースの反復ワークフローを実現するワークベンチ、モデルの進化を追跡し、バージョン管理されたモデルを一元管理するためのレジストリ、デプロイされたモデルを監視・管理するコンソールで構成されています。 また、NextGenは、エージェントワークフロー、GenAIエクスペリメント、ノートブック、およびアプリを作成するためのゲートウェイも提供します。
N-gram¶
一連の単語。Nは単語の数です。 たとえば、「機械学習」は2グラムです。 テキスト特徴量は、自然言語処理(NLP)の準備としてn-gramに分割されます。
NIM¶
NVIDIA Inference Microservice (NIM) はコンテナ化されたAIモデルで、低レイテンシと効率的なリソース利用で最適化された高性能推論を提供します。 DataRobotのプラットフォームでは、NIMをエージェントワークフローに統合することで、高度なAI機能を提供できるため、エージェントは最適なパフォーマンスとスケーラビリティを維持しながら、特定のタスクに最先端のモデルを活用できます。
AIアプリ¶
DataRobotのコアサービスを実現するAI搭載アプリケーションを、モデルの構築やパフォーマンスの評価をすることなく作成できる、コード不要のインターフェイス。 アプリケーションは簡単に共有でき、ユーザーはアプリケーションを使用するための完全なDataRobotライセンスの所有権を取得する必要はありません。
ノートブック¶
コード実行とリッチメディアをホストするインタラクティブな計算環境。 DataRobotは、Jupyter互換のホスト型ノートブックを作成、管理、実行するための独自のアプリ内環境を提供します。
ナウキャスティング¶
過去と現在のデータに基づいてターゲットの現在の値を予測する時系列モデリングの方法。 技術的には、開始と終了時刻が0(現在)である予測ウィンドウのことです。
O¶
オフセット¶
モデリングで固定要素(Generalized Linear Modelまたは勾配ブースティングマシンモデルの係数1)として取り扱う必要のある特徴量。 オフセットは、価格制限を組み入れるため、または既存のモデルをブーストするために使用することがあります。
One-shot学習¶
単一の例のみからタスクの実行を学習するモデルの能力。
オーケストレーション¶
複雑な目的を達成するために、複数のAIコンポーネント、ツール、ワークフローを調整すること。 オーケストレーションは、異なるAIサービス間のデータと制御の流れを管理し、適切な順序付け、エラー処理、リソース割り当てを保証します。 DataRobotでは、オーケストレーションによって、さまざまな機能やツールを組み合わせた洗練されたマルチステップAIワークフローの作成が可能になります。
パラメーター効率微調整(PEFT)¶
完全な微調整よりも少ないパラメーターで大規模モデルを微調整する方法。 LoRA(Low-Rank Adaptation)やアダプターレイヤーなどのPEFT技術は、元のモデルの性能をほとんど維持し、計算量を削減しながら、効率的にモデルをカスタマイズすることを可能にします。
操作¶
1つ以上のレコードを0個以上のレコードに変換、フィルター、またはピボットするように指定する単一のデータ操作命令(例:検索と置換、新しい特徴量の計算)。
最適化指標¶
モデルがどの程度実測値を予測しているかを判断するために、DataRobotで使用される誤差指標。 ターゲット特徴量を選択した後、モデリングタスクに基づいて最適化メトリックが選択されます。
順序付け特徴量¶
DataRobotがモデリングに使用するプライマリー日付/時刻特徴量。 EDA1中にオプションが検出されました。
組織¶
A top-level entity in DataRobot that represents a single customer or tenant. It serves as a container for all users, groups, projects, deployments, and other assets, enabling centralized billing and resource management.
OTV¶
時間外検定とも呼ばれます。 時間に関連するデータをモデル化する手法。 OTVでは、時系列のような予測は行われません。 その代わりに、個々の各行のターゲット値を予測します。
過剰適合¶
A modeling issue where predictive models perform exceptionally well on training data but poorly on new data. DataRobot addresses overfitting through automated techniques like regularization, early stopping, and cross-validation. The platform's built-in safeguards help prevent overfitting by monitoring validation performance and automatically adjusting model complexity, ensuring models generalize well to unseen data while maintaining predictive accuracy.
P¶
パーティション¶
精度を最大化するために分解されたトレーニングデータのセグメント。 データセットのセグメント(分割)。 トレーニング、検定、交差検定、ホールドアウトも参照してください。
Per-class bias¶
モデルのリーダーボードタブ(バイアスと公平性 > クラスごとのバイアス)。モデルにバイアスがあるかどうか、バイアスがある場合は、そのバイアスの程度と、誰に対して好ましいまたは好ましくないバイアスがあるかを特定するのに役立ちます。 バイアスと公平性の設定を行う必要があります。
ユーザー権限¶
A set of rights that control what actions a user or group can perform within DataRobot. Permissions are managed through roles and determine access to features like creating projects, deploying models, and managing system settings.
PID(プロジェクト識別子)¶
プロジェクトを一意に識別するために使用される内部識別子。
PII¶
氏名、写真、自宅住所、SSN(社会保障番号)またはその他の識別番号、生年月日などの個人を特定できる情報。 DataRobotは、特定の種類の個人データの検出を自動化して、この情報がデータセットに誤って含まれることに対する保護レイヤーを提供します。
パイプライン¶
A sequence of data processing and modeling steps, often automated, that transforms raw data into predictions or insights.
プレイグラウンド¶
LLMブループリント(LLMおよび関連する設定)を作成して操作する場所。それぞれのレスポンスを比較して、本番環境で使用するものを決定します。 多くのLLMブループリントは、プレイグラウンド内に存在することができます。 プレイグラウンドはユースケースのアセットです。1つのユースケースに複数のプレイグラウンドが存在する場合があります。
プレイグラウンドの比較¶
比較のためにLLMブループリントをプレイグラウンドに追加し、これらのLLMブループリントにプロンプトを送信し、レンダリングされたレスポンスを評価する場所です。 RAGでは、以前のプロンプトを参照せずに、単一のプロンプトがLLMに送信され、単一のレスポンスが生成されます。 これにより、ユーザーは複数のLLMブループリントからのレスポンスを比較できます。
ポート¶
DataRobotのエンティティ(ノートブック、カスタムモデル、カスタムアプリ)を別のネットワークに接続するインターフェイス。
ポータブル予測サーバー(PPS)¶
DataRobotモデルのパッケージ(.mlpkgファイル)を自己完結型のDockerイメージとして配布する DataRobotの実行環境。 主な設置環境から切り離して運用することができます。
予測¶
時系列モデリング以外の場合。 1つの行の情報を使用して、その行のターゲットを決定します。 予測では、説明的な特徴量を使用して期待される出力または期待される応答(たとえば、将来の特定のイベント、性別、不正行為など)を特徴付けます。
予測データ¶
予測リクエストおよびモデルからの結果を含むデータ。
予測環境¶
DataRobotの外部にあるシステムでデプロイ予測を管理するように設定された環境。 予測環境では、デプロイの権限および承認のプロセスを設定できます。 設定が完了すると、ポータブル予測サーバーで実行されているDataRobotモデルや、MLOps監視エージェントによって監視されるリモートモデルで使用する予測環境を指定することができます。
予測の説明¶
A visualization that helps to illustrate what drives predictions on a row-by-row basis—they provide a quantitative indicator of the effect variables have on a model, answering why a given model made a certain prediction. モデルが特定の予測を行った理由を理解して、予測が意味があるかどうかを検定することが可能になります。 SHAP、XEMPも参照してください。
予測の説明¶
予測間隔は、点推定(機械学習モデルの単一予測など)の上限と下限を含めることで、DataRobotが単一レコード予測の不確実性を評価および説明するのに役立ちます。 予測間隔は、将来のデータポイントにおいてターゲットが収まる可能性がある値の範囲を示します。
予測ポイント¶
予測を行った時点、または予測を行う時点。 Plan your prediction point based on the production model (for example, "one month before renewal" or "loan application submission time"). 定義したら、先読みバイアスを回避するためにトレーニングデータにその項目を作成します。 特徴量探索で予測ポイントを定義すると、派生特徴量は、そのポイントより前のデータのみ使用します。
予測サーバー¶
The dedicated, scalable infrastructure responsible for hosting deployed models and serving real-time prediction requests via an API. It is optimized for low-latency and high-throughput scoring.
準備済みのデータセット¶
レシピをパブリッシュした後にソースでマテリアライズされたデータセット。
プライマリーデータセット¶
(特徴量探索)プロジェクトを開始するために使用されるデータセット。
プライマリー特徴量¶
(Feature Discovery) Features in the project's primary dataset.
Privacy controls¶
Mechanisms and policies for managing personal data in LLM and AI systems, including data anonymization, consent management, and compliance with privacy regulations.
プロジェクト¶
トレーニングに使用されるソースであるデータセット、およびデータセットから構築されたモデルを含む参照可能なアイテム。 プロジェクトは、ホームページ、プロジェクトコントロールセンター、AIカタログから作成およびアクセスできます。 それらは、ユーザー、グループ、組織で共有することができます。
プロンプト¶
チャット中に行う入力で、LLMのレスポンスの生成に使用されます。
プロンプトエンジニアリング¶
言語モデルを望ましい出力に導くために、入力プロンプトを設計し、改良すること。
プロンプトインジェクション¶
悪意のあるプロンプトがシステムの指示や安全対策を上書きしてしまうセキュリティ上の脆弱性。 プロンプトインジェクション攻撃は、モデルの意図した制約やガイドラインを回避する入力を細工することで、AIシステムを操作して不適切なコンテンツを生成させたり、意図しないアクションを実行させようとします。
プロンプトテンプレート¶
システムプロンプトを参照してください。
Pulumi¶
開発者が使い慣れたプログラミング言語を使ってクラウドインフラストラクチャを定義および管理できるインフラストラクチャ・アズ・コード(IaC)プラットフォーム。 Pulumiは複数のクラウドプロバイダーをサポートし、インフラストラクチャ管理への統一されたアプローチを提供します。 DataRobotのエージェントワークフローにおいて、Pulumiはエージェントのデプロイ、スケーリング、監視に必要なインフラストラクチャリソースの自動プロビジョニングと管理を異なる環境間で可能にします。
保護クラス¶
バイアスと公平性モデリングに使用される、保護された特徴量の1つのカテゴリー値。
保護された特徴量¶
モデル予測の公平性を測定するデータセット列。 モデルの公平性は、データセットから保護された特徴量に対して計算されます。 「保護された属性」とも呼ばれます。
パブリッシュ¶
レシピで指定された一連の操作を実行し、データソース内のデータセットをマテリアライズすること。
Q¶
キュー¶
The system that manages the execution of jobs, such as model training and batch predictions. The queue prioritizes and allocates tasks to available workers based on system load and user permissions, ensuring efficient use of computational resources.
クイック(オートパイロット)¶
32%からモデルの実行を開始して64%までモデルを実行するオートパイロットのフルモデリングモードの縮退バージョン。 クイックでは、16%のサンプルサイズは実行されません。 DataRobotでは、ターゲットやパフォーマンス指標など、さまざまな基準に基づいて実行するモデルが選択されますが、名前が示すように、より迅速なエクスペリメントをサポートするために、トレーニング実行時間が比較的短いモデルだけが選択されます。
R¶
Rate limiting¶
A technique used to control the number of requests a client can make to an API within a specified time period, preventing abuse and ensuring fair usage.
格付表¶
モデルのリーダーボードタブ(説明 > 格付表)。モデルの完全な検証済みパラメーターをエクスポートできます。
リアルタイム予測¶
低レイテンシーが必要な場合に予測を作成する方法。 専用予測サーバーとスタンドアロン予測サーバーでのリアルタイムデプロイ予測用の予測APIを使用します。
受信者動作特性曲線¶
ROC曲線を参照してください。
レシピ¶
データに適用される、ユーザーが定義した一連の変換操作のこと。 レシピはシステムによって一意に識別され、バージョン管理されます。 It includes metadata identifying the input data's source and schema, the output data's schema, the Use Case Container ID, and user ID.
レジストリ¶
レジストリは、バージョン管理され、デプロイ可能なモデルパッケージへのアクセスを一元的に行える場所です。 そこから、カスタムモデルやジョブの作成、コンプライアンスドキュメントの生成、本番環境へのモデルのデプロイができます。
連続値¶
A DataRobot modeling approach that predicts continuous numerical values from your target feature. DataRobot's regression capabilities handle various continuous outcomes like sales forecasts, price predictions, or risk scores. The platform automatically selects from regression algorithms in the Repository and provides evaluation metrics like RMSE, MAE, and R² to measure prediction accuracy. 分類も参照してください。
Regularization¶
A technique used to prevent model overfitting by adding a penalty term to the loss function. Common types are L1 (Lasso) and L2 (Ridge) regularization.
規則的データ¶
Data is regular if rows in the dataset fall on an evenly spaced time grid (e.g., there's one row for every hour across the entire dataset). 時間ステップおよび半規則的データも参照してください。
RLHF(人間のフィードバックによる強化学習)¶
人間のフィードバックを利用してモデルの動作を改善するトレーニング方法。 RLHFでは、モデルの出力に関する人間の嗜好を収集し、強化学習技術を使用して、人間の価値観や嗜好に沿った回答を生成するようにモデルを微調整し、安全性と有用性を向上させます。
ReAct¶
推論と行動(ReAct)フレームワークは、AIエージェントにおける推論能力と行動実行を組み合わせたものです。 ReActは、エージェントが問題を段階的に考え、行動を計画し、実行し、結果を観察して、その後の推論に役立てることを可能にします。 DataRobotのエージェントワークフローでは、ReAct機能により、エージェントは目標達成のために、状況を推論し、行動を起こし、結果から学習することを繰り返し、複雑な問題解決を行うことができます。
関係性¶
(特徴量探索)データセット間の関係性。 各関係性にはデータセットの1つのペアがあり、各データセットからの結合キーがあります。 キーは、データセットの1つまたは複数の列で構成されます。 両方のデータセットからのキーに順番が付けられ、キーには列の同じ番号が必要です。 キーの組み合わせは、2つのキーの結合方法を決定するために使用されます。
リモートモデル¶
DataRobot以外の外部予測環境で動作するモデル。多くの場合、MLOps監視エージェントが監視し、DataRobotに統計情報を報告します。
リポジトリ¶
問題の種類に応じて選択され、プロジェクトで利用可能なモデリングブループリントのライブラリ。 これらのモデルは、DataRobotによって選択および構築でき、ユーザーが実行することもできます。
Resource optimization¶
The practice of optimizing LLM and AI resource usage for cost efficiency while maintaining performance and reliability requirements.
Resource provisioning¶
The allocation and management of computing resources (CPU, memory, storage, GPU) for LLM and AI workloads to ensure optimal performance and cost efficiency.
Response time optimization¶
Techniques and strategies for improving LLM response times, including caching, model optimization, and infrastructure improvements.
検索¶
知識ベースやデータベースから関連情報を見つけるプロセス。 RAGワークフローのコンテキストでは、検索はベクターデータベースやその他の知識ソースを検索し、AIの回答の根拠と情報提供に使用できる最も関連性の高いコンテンツを見つけ、精度を向上させ、ハルシネーションを減らすことを意味します。
検索拡張生成(RAG)¶
プロンプト、システムプロンプト、LLM設定、ベクターデータベース(またはベクターデータベースのサブセット)、およびこのペイロードに基づいて対応するテキストを返すLLMを含むペイロードをLLMに送信するプロセス。 これには、ベクターデータベースから関連情報を取得し、プロンプト、システムプロンプト、およびLLM設定とともにLLMエンドポイントに送信して、ベクターデータベース内のデータに基づくレスポンスを生成するプロセスが含まれます。 この操作には、オプションで複数のプロンプトのチェーンを実行するためのオーケストレーションを組み込むこともできます。
RAG(検索拡張生成)ワークフロー¶
RAGを実行するAIシステム。データ準備、ベクターデータベースの作成、LLM設定、回答の生成が含まれます。 RAGワークフローは通常、ドキュメントのチャンキング、埋め込み生成、類似検索、コンテキストを考慮した回答生成などのステップを含み、これらはすべて、ユーザーのクエリーに対して正確で根拠のある回答を提供するために編成されます。 検索拡張生成(RAG)も参照してください。
REST (Representational State Transfer)¶
An architectural style for designing networked applications, commonly used for web APIs, that uses standard HTTP methods (GET, POST, PUT, DELETE) to access and manipulate resources.
ROC曲線¶
受信者動作特性曲線とも呼ばれます。 確率スケール上の任意のポイントで、選択したモデルに関する分類、パフォーマンス、統計を探索するのに役立つ視覚化データです。 DataRobotでは、視覚化はリーダーボードから利用できます。
役割¶
Roles—Owner, Consumer, and Editor—describe the capabilities provided to each user for a given dataset. これは、データソースまたはデータ接続を作成するユーザーとエンドユーザーが同じでない場合や、アセットの複数のエンドユーザーが存在する場合に使用すると便利です。
役割ベースのアクセス制御(RBAC)¶
A security model that restricts access to LLM and AI systems based on the roles of individual users, providing granular permission management and security control. DataRobot implements RBAC through user groups, permissions, and organization-level access controls to ensure secure and appropriate access to features and assets across the platform.
S¶
サンプル¶
The process of selecting a subset of data from a larger dataset for analysis, modeling, or preview purposes. DataRobot samples data in various contexts:
- EDA1 sampling: DataRobot samples up to 500MB of data for initial exploratory data analysis. If the dataset is under 500MB, it uses the entire dataset; otherwise, it uses a 500MB random sample.
- Live sample: During data wrangling, DataRobot retrieves a configurable number of rows (default 10,000) using different sampling methods (Random, First-N Rows, or Date/time for time series data) to provide interactive preview and analysis capabilities.
- Feature Impact sampling: For calculating feature importance, DataRobot samples training records (default 2,500 rows, maximum 100,000) using different sampling strategies based on data characteristics (random sampling for balanced data, smart downsampling for imbalanced data).
- Model evaluation sampling: Various model insights and evaluations use sampled data to balance computational efficiency with statistical accuracy.
サンプルサイズ¶
モデルの構築に使用されるトレーニングデータ全体の割合。 パーセンテージは、選択したモデリングモードに基づくか、ユーザーが選択できます。
スコアリング¶
モデルのスコアリング、 スコアリングデータを参照してください。
スコアリングコード¶
DataRobotのモデルをアプリケーション以外で使用する方法。 リーダーボードの一部のモデルでは、コマンドラインからデータのスコアリングに使用できるJavaコードを含むJARファイルをダウンロードして利用できます。
一部のモデルで利用可能な、Javaで動作するエクスポート可能なJARファイル。 Scoring Code JARs contain prediction calculation logic identical to the DataRobot API—the code generation mechanism tests each model for accuracy as a part of the generation process.
スコアリングデータ¶
予測を生成するためにデプロイ済みモデルに提供されるデータセット。 これは推論データとも呼ばれます。 たとえば、住宅価格を予測する場合、スコアリングデータとは、モデルに必要なすべての特徴量(床面積、寝室の数、など)を含む新規物件リストのファイルになりますが、最終的な価格は含まれません。
SDK (Software Development Kit)¶
A collection of tools and libraries provided by a hardware or software vendor to enable developers to create applications for a specific platform. (e.g., the DataRobot Python SDK).
季節性¶
1年、1週間、1日などの間の異なる時間で繰り返し観測される値の変動。周期性。 たとえば、温度は高い季節性を示します(夏に高く、冬に低くなり、日中は高く、夜間は低くなります)。 時系列モデリングに適用されます。
セカンダリーデータセット¶
(特徴量探索)プロジェクトに追加されるデータセットで、プライマリーデータセットとの関係性の一部となるもの。
セカンダリー特徴量¶
(Feature Discovery) Features derived from a project's secondary datasets.
セキュアなシングルサインオンプロトコル(SSSOP)¶
AIエージェントとワークフローに認証および認可サービスを提供するセキュアなシングルサインオンプロトコル(SSSOP)。 SSSOPは、ユーザーのプライバシーとセッション管理を維持しながら、分散エージェントシステム全体で安全なアクセス制御を確保します。 DataRobotのエージェントプラットフォームにおいて、SSSOPはエージェントが外部システムにアクセスする際のシームレスな認証を可能にし、コンプライアンスとセキュリティ監視のための監査証跡を提供します。
セグメント化された分析¶
データのドリフトと精度の統計情報を、一意のセグメントの属性および値にフィルタリングするデプロイユーティリティ。 トレーニングや予測要求データの運用上の問題点を把握するのに有効です。
セグメント化されたモデリング¶
各セグメントのモデルを生成することにより、複数系列プロジェクトをモデル化する方法。 DataRobotは、各セグメント(セグメントチャンピオン)に最適なモデルを選択し、展開可能な単一の結合モデルにセグメントチャンピオンを含めます。
セグメントID¶
複数系列プロジェクトのセグメントに系列をグループ化するために使用されるデータセットの列。 セグメントIDは、DataRobotがセグメントごとに個別のモデルを構築するセグメント化されたモデリングワークフローに必要です。 セグメント化されたモデリングも参照してください。
セマンティックレイヤー¶
セマンティックレイヤーは、複雑なデータを一般的なビジネス用語にマッピングするソースデータのビジネス表現であり、データの意味合いおよびそれが表す情報をより簡単に理解する上で役立ちます。
意味記憶¶
特定の経験に結びつかない一般的な知識、事実、概念、関係を記憶する記憶システム。 意味記憶により、AIエージェントはドメイン知識を維持し、概念を理解し、新しい状況に一般的な原則を適用することができます。 DataRobotのエージェントワークフローでは、意味記憶により、エージェントはビジネスプロセス、ドメインの専門知識、一般的な問題解決戦略に関する知識を維持できます。
セマンティック検索¶
キーワードの完全一致ではなく、意味に基づいてコンテンツを見つける検索方法。 セマンティック検索は、クエリーの意図とコンテキストを理解するためにベクトル埋め込みを使用し、正確な単語が一致しない場合でも、より正確で関連性の高い結果を可能にします。 このアプローチはRAGシステムにおいて、AIの回答の根拠となる最も関連性の高い情報を見つけるために特に有効です。
短期記憶¶
AIエージェントがアクティブなタスク実行中にコンテキストや情報を維持するために使用する一時記憶システム。 短期記憶は、エージェントが最近のやりとりを記憶し、会話のコンテキストを維持し、現在のタスクの進捗を追跡することを可能にします。 DataRobotのエージェントワークフローでは、短期記憶によってエージェントが複数ステップのプロセスにわたって一貫性を維持し、ユーザーとの対話に連続性を持たせることができます。
長期記憶¶
AIエージェントが複数のセッションやタスクにわたって知識、経験、学習したパターンを保持するために使用する永続的なストレージシステム。 長期記憶は、エージェントが以前の経験を基に、学習した行動を維持し、長期にわたってドメイン知識を蓄積することを可能にします。 DataRobotのエージェントワークフローでは、長期記憶により、エージェントは経験を通じてパフォーマンスを向上させ、異なるユースケース間で一貫性を保つことができます。
半規則的データ¶
ほとんどの時間ステップは規則的ですが、部分的に小さなギャップのあるデータ(週末を除く営業日など)は、半規則なデータになります。 規則的データおよび時間ステップも参照してください。
系列ID¶
複数系列プロジェクトのデータセットを系列に分割するために使用されるデータセットの列。 この列には、各行が属する系列を示すラベルが含まれています。 複数系列モデリングも参照してください。
サービスの正常性¶
A performance monitoring component for deployments that tracks metrics about a deployment's ability to respond to prediction requests quickly and reliably. ボトルネックの特定や予測能力の評価に有効。
Service mesh¶
A dedicated infrastructure layer for managing communication between LLM and AI microservices, providing features like load balancing, service discovery, and security. Service meshes enable fine-grained control over service-to-service communication, including traffic management, observability, and policy enforcement for complex AI application architectures.
ストリーミング¶
リアルタイムでテキストを生成し、生成中に出力が表示されます。 ストリーミングは、完全な回答を待つのではなく、AIの回答をその都度表示することで、ユーザーに即時フィードバックを提供します。 このアプローチは、知覚される待ち時間を減らし、ユーザーがリアルタイムで進捗状況を確認できるようにすることで、ユーザーエクスペリエンスを向上させます。
シングルエージェントフロー¶
1人のAIエージェントがタスクの最初から最後まですべての側面を処理するワークフローパターン。 エージェントは入力を受け取り、その能力によって処理し、他のエージェントとの協調を必要とせずに出力を生成します。 シングルエージェントフローは、1人の専門エージェントで完了できる単純なタスクに適しています。
SHAP(Shapley値)¶
ツリーベース、ディープラーニング、線形ベースのモデルにおける予測説明の計算に用いる高速でオープンソースな手法。 SHAPは、各特徴量が平均とは異なる特定の予測にどの程度寄与するかを推定します。 SHAPは加法性があり、上位N個の特徴量がどれだけ予測に寄与しているかを簡単に確認できます。 予測の説明、XEMPも参照してください。
サイドカーのモデル¶
回答を返すLLMをサポートする構造的なコンポーネント。 プロンプトが有害かどうか、インジェクション攻撃かどうかなどを判断するのに役立ちます。DataRobotでは、ホストされたカスタム指標を使って監視を行います。
Single Sign-On (SSO)¶
An authentication method that allows users to log in to DataRobot using their existing corporate identity provider (e.g., Okta, Azure AD). SSO simplifies user access by eliminating the need for separate DataRobot-specific credentials.
スリム実行¶
時間とメモリーの使用を改善するテクニック。スリム実行は、800MBを超えるデータセットに適用されます。 トリガーされると、モデルは内部の交差検定を計算しないため、スタックされた予測はありません。
スマートダウンサンプリング¶
マジョリティークラスのサイズを小さくすることで、データセット全体のサイズを小さくする手法です。これにより、精度を犠牲にせずにモデルを短時間で構築できます。 スマートダウンサンプリングを有効にすると、すべての分析およびモデル構築は、ダウンサンプルデータ後の新しいデータセットサイズに基づいて行われます。
スナップショット¶
データソースから作成されたアセット。 たとえばデータセットの場合、これは特定の時点で取得されたデータベース全体または一部の(結合された)テーブルを表します。 これはライブデータベースから取得されますが、データの静的な読み取り専用のコピーが作成されます。 DataRobotでは、各データアセットタイプのスナップショットを作成します。ユーザーは、データをインポートするときにスナップショットを無効にできます。
Speed vs accuracy¶
速度対精度分析プロットは、予測実行時間と予測精度のトレードオフを示し、オーバーヘッドの最も低いモデルを選択するのに役立ちます。
安定性¶
モデルのリーダーボードタブ(評価 > 安定性)。さまざまなバックテストにおけるモデルのパフォーマンスを一目で把握できるサマリーを提供します。 このチャートのバックテスト情報は、モデル情報タブに表示される情報と同じです。
スタックされた予測¶
異なるサブセットに複数のモデルを構築する方法。 行の予測は、そのデータをトレーニングから除外したモデルを使用して作成されます。 この方法により、各予測は効果的に「アウトオブサンプル」予測になります。 予測ドキュメントの例を参照してください。 「サンプル内」予測と比較します。 スリム実行も参照してください。
定常性¶
系列の平均が時間の経過とともに変化しないこと。 定常的な系列にはトレンドや季節的な変動がありません。 時系列モデリングに適用されます。 トレンドも参照してください。
ストップシーケンス¶
特定のトークンまたはトークンの集合で、言語モデルがそれ以上の出力を生成しないように合図します。
教師あり学習¶
Predictive modeling approach where your dataset includes a target feature with known values for training. DataRobot uses this labeled data to automatically build models that learn relationships between features and the target, enabling predictions on new data. This approach powers DataRobot's classification and regression projects, with the platform handling algorithm selection, hyperparameter tuning, and model evaluation automatically. 教師なし学習も参照してください。
Syftr¶
AIエージェントに安全でプライバシー保護されたデータ処理機能を提供する、特殊なエージェントフレームワークコンポーネント。 Syftrを使用することで、エージェントは機密性を維持し、プライバシー規制を遵守しながら、機密データを扱うことができます。 DataRobot のエージェントワークフローでは、Syftr コンポーネントにより、エージェントは暗号化または匿名化されたデータを処理し、連携学習を実行し、エージェントのライフサイクル全体を通じてデータプライバシーを維持することができます。
システムプロンプト¶
オプションのフィールドであるシステムプロンプトは、個々のすべてのプロンプトの先頭にある「汎用」プロンプトです。 LLMのレスポンスを指示およびフォーマットします。 システムプロンプトは、レスポンス生成中に作成される構造、トーン、形式、コンテンツに影響を与えることがあります。
T¶
ターゲット¶
予測対象データセットの列の名前。
ターゲットリーケージ¶
An outcome when using a feature whose value cannot be known at the time of prediction (for example, using the value for "churn reason" from the training dataset to predict whether a customer will churn). Including the feature in the model's feature list would incorrectly influence the prediction and can lead to overly optimistic models.
タスク¶
ML手法の一種で、データ変換にOne-hot encodingや推定処理にXGBoost分類子を使用して、ブループリントを定義します。 数百種類の標準タスクが用意されているほか、オリジナル(カスタム)タスクを定義することも可能です。
Temperature¶
LLMの回答における創造性とランダム性を制御するパラメーター。 低い温度値(0.1~0.3)では、事実に基づいた回答に適した、より集中的で一貫性のある出力が得られ、高い温度値(0.7~1.0)では、より創造的で多様なコンテンツが得られます。 DataRobotのプレイグラウンドインターフェイスでは、LLMブループリントの設定でさまざまな温度値を試して、特定のユースケースに最適なバランスを見つけることができます。
ターミナル¶
コマンドを入力してサーバーとやり取りするためのテキストベースのインターフェイス。
テンプレート¶
エージェントワークフロー、アプリケーション、または構成を作成するための出発点となる、設定済みのフレームワークまたは構造。 DataRobotのテンプレートには、定義済みのエージェント設定、ワークフローパターン、コード構造が含まれており、開発を加速し、ベストプラクティスを保証します。 テンプレートには、エージェントの目標、ツール構成、ガードレール、統合パターンを含めることができ、ユーザーはゼロから始めることなく、洗練されたエージェントシステムを迅速にデプロイできます。
Throughput¶
The number of requests or predictions a system can process in a given period, often measured as requests per second (RPS) or tokens per second for LLMs.
時間認識予測¶
バックテストに時系列で行を割り当て、1行ずつ予測します。 This method provides no feature engineering and can be used when forecasting is not needed.
Time-aware predictions with feature engineering¶
予測距離ごとに行を割り当て、各距離に別個のモデルを構築してから、1行ずつ予測します。 This method is best when combined with time-aware wrangling, which provides transparent and flexible feature engineering. Use when forecasting is not needed, but predictions based on forecast distance and full transparency of the transformation process is desired.
時間認識ラングリング¶
Perform time series feature engineering during the data preparation phase by creating recipes of operations and applying them first to a sample and then, when verified, to a full dataset—time-aware data. This method provides control over which time-based features are generated before modeling to allow adjustment before publishing, preventing the need to rerun modeling if what would otherwise be done automatically doesn't fit the use case.
時系列¶
時間順にインデックスが付けられた一連のデータポイント。通常、等間隔で連続して行われる一連の測定。 時間の経過に伴って条件が変化する可能性があるデータサイエンスの問題がある場合、時系列モデリングが推奨されます。
時系列分析¶
時系列データを分析して、有意な統計データやその他の特徴的なデータを抽出する手法。
時系列予測¶
過去に観測された値に基づいて、未来の値を予測するのに使用するモデル。 実際には、予測モデルは時系列機能を他のデータと組み合わせる場合があります。
時間ステップ¶
時系列の行間で検知された中央値の時間差。時間単位はDataRobotによって決定されます。 The time step consists of a number and a time-delta unit, for example (15, "minutes"). If a step isn't detected, the dataset is considered irregular and time series mode may be disabled. 規則的データおよび半規則的データも参照してください。
トークン¶
LLMがプロンプトを解析し、回答を生成する際に処理するテキストの最小単位。 DataRobotのプラットフォームでは、トークンはチャットの入出力サイズを測定し、LLM操作の使用コストを計算するために使用されます。 LLMブループリントにプロンプトを送信すると、システムはテキストをトークン化し、課金とパフォーマンス監視のために消費量を追跡します。 トークンの使用量は、DataRobotのプレイグラウンドとデプロイのインターフェイスに表示され、コストを最適化し、プラットフォームの制限内にとどまるのに役立ちます。
トークンの使用状況¶
LLMが入出力のために消費したトークンの数で、しばしば課金やコスト管理に使用されます。 ほとんどのLLMプロバイダーはトークンの処理数に基づいて課金するため、トークンの使用量はAI操作の計算コストを理解するための重要な指標となります。 トークンの使用状況を監視することで、AIアプリケーションのコストとリソース割り当てを最適化することができます。
Token usage tracking¶
The monitoring and recording of LLM token consumption to track costs, usage patterns, and optimize resource allocation. DataRobot provides token usage analytics and cost management features to help organizations monitor and control their LLM API expenses across different models and deployments.
トークン化¶
テキストをトークンと呼ばれる小さな単位に分割するプロセス。トークンには単語、サブワード、文字などがあり、言語モデルによって処理されます。
ツール¶
AIエージェントまたはワークフローに特定の機能を提供するソフトウェアコンポーネントまたはサービス。 ツールは、データ検索、計算、APIコール、特殊な処理など、さまざまなタスクを実行できます。 DataRobotのエージェントワークフローでは、ツールは、エージェントがその機能を拡張し、コア機能を超えた複雑な操作を実行するために呼び出すことができるモジュールコンポーネントです。
ツールキット¶
エージェント型AIシステムの開発と導入を支援するために設計されたツール、ユーティリティ、リソースのコレクション。 ツールキットは、AIエージェントを構築するための標準化されたインターフェイス、共通機能、ベストプラクティスを提供します。 DataRobotのプラットフォームでは、データ処理、モデルトレーニング、API統合、ワークフローオーケストレーションのためのツールキットがあらかじめ用意されており、高度なエージェントアプリケーションの迅速な開発を可能にしています。
Top-k¶
デコーディングパラメーターは、モデルの次のトークンの選択肢を最も可能性の高いk個の選択肢に制限し、その候補のみからサンプリングすることで、より集中的で創造的な回答を生成します。
Top-p(核サンプリング)¶
累積確率が閾値pを超える最小の集合にモデルの次のトークンの選択を制限するデコーディングパラメーター。
毒性¶
モデルの出力に有害、攻撃的、または不適切な表現がある場合、安全性とモデレーションシステムはそれを検出し、防止することを目的としています。
追跡エージェント¶
MLOpsエージェントを参照してください。
トレーニング¶
既知のターゲットに基づいてモデルを構築するプロセス。
トレーニングダッシュボード¶
モデルのリーダーボードタブ(評価 > トレーニングダッシュボード)。実行された反復ごとに、モデルのトレーニングとテストの損失、精度、学習率、モメンタムに関する情報が提供されるため、モデルのトレーニング中に発生した可能性のある事象について理解を深めることができます。
トレーニングデータ¶
モデルの構築に使用されるデータの部分(パーティション)。 検定、交差検定、ホールドアウトも参照してください。
転移学習¶
単一のデータセットをトレーニングして、有用かつ他の学習にも適用できうる情報を抽出するプロジェクト手法。
トレンド¶
時間の経過に伴う増加または減少。 トレンドには、直線的なものと非直線的なものがあり、変動を示すこともあります。 トレンドを含む系列は定常的(静的)でありません。
チューニング¶
いくつかのハイパーパラメーターを変更し、データ上でアルゴリズムを再度実行し、パフォーマンスを比較して、どのハイパーパラメーターのセットが最も精度の高いモデルになるかを決定する試行錯誤のプロセス。 DataRobotでは、この機能は[高度なチューニング]タブから利用できます。
U¶
分析単位¶
(機械学習)予測を行う際の観測値。
無制限の多クラス¶
分類を参照してください。
未マテリアライズ¶
プロファイル統計の目的でDataRobotでサンプリングされ、保持されないデータ。 カタログにはデータへのポインターが格納され、データはプロジェクトの開始時またはバッチ予測を実行するときにユーザーのリクエストに応じて取得されます。 マテリアライズ済みデータも参照してください。
非構造化テキスト¶
テーブルにすっきり収まらないテキスト。 最も一般的な例は、通常、何らかの種類のドキュメントまたはフォームの大きなテキストブロックです。
教師なし学習¶
A DataRobot modeling approach to discovering patterns in datasets without requiring a target feature. DataRobot offers unsupervised learning through anomaly detection projects, which identify unusual data points, and clustering projects, which group similar records together. These capabilities help users explore data structure, identify outliers, and segment populations without needing labeled training data. DataRobot automatically selects appropriate unsupervised algorithms and provides visualizations to interpret results. See also supervised learning.
ユースケース¶
ワークベンチのエクスペリメントフローの一部であるオブジェクトをグループ化するコンテナ。
ユーザー¶
A DataRobot account that can be assigned to a specific user. Users can be assigned to one or more organizations and have specific permissions within those organizations.
ユーザーのブループリント¶
ユーザーが作成して、共有と変更できるようにAIカタログに保存したブループリント(および追加メタデータ)。 これは、リポジトリまたはリーダーボードのモデルから使用できるブループリントとは異なりますが、どちらもユーザーブループリントの作成の基礎として使用できます。 ブループリントも参照してください。
V¶
検証¶
The validation (or testing) partition is a subsection of data that is withheld from training and used to evaluate a model's performance. Since this data was not used to build the model, it can provide an unbiased estimate of a model's accuracy. モデルを選択する際には、通常検定の結果を比較します。 交差検定も参照してください。
特徴量¶
特徴量を参照してください。
Variance (Statistical)¶
The variability of model prediction for a given data point. High-variance models are often too complex and are sensitive to the specific data they were trained on, leading to overfitting.
ベクターデータベース¶
テキストチャンクを数値表現(埋め込み)と一緒に保存し、効率的な類似性検索を行うための特殊なデータベース。 DataRobotのプラットフォームでは、ベクターデータベースは、LLMブループリントが大規模なドキュメントコレクションから関連情報を取得することを可能にすることにより、RAGオペレーションを可能にします。 DataRobotにドキュメントをアップロードすると、システムは自動的にテキストをチャンク化し、埋め込みを生成して、特定のコンテンツに基づいて根拠のある正確な回答を行うために、LLMブループリントに接続できるベクターデータベースに格納します。
Visual Artificial Intelligence (AI)¶
DataRobotの機能。サポートされている画像タイプだけを使用するか、サポートされている他の特徴量型と組み合わせて、画像を入力として使用するモデルを作成できます。 この機能には、モデルのパフォーマンスを視覚的に評価するのに役立つ専門的なインサイト(画像埋め込み、アテンションマップ、ニューラルネットワークビジュアライザーなど)も含まれています。
W¶
ワードクラウド¶
モデルのリーダーボードタブ(解釈 > ワードクラウド)。最も関連度の高い語句がワードクラウド形式で表示されます。
ワークベンチ¶
ワークベンチは、反復的なワークフローをサポートするために最適化されたエクスペリメントベースのユーザーインターフェイスです。 ユーザーは、特定の問題を解決するために必要なすべてのものを1つの場所でグループ化、共有できます。 ワークベンチはユースケース別に構成され、各ユースケースには0個以上のデータセット、ベクターデータベース、プレイグラウンド、モデル、ノートブック、およびアプリケーションが含まれます。 Workbench is the new generation of DataRobot Classic.
ワーカー¶
プロジェクトの作成、モデルのトレーニング、予測などに使用され、DataRobotプラットフォームを支える処理能力。 ワーカーは、タスクに割り当てられた処理能力を表します。 DataRobotでは、プロジェクトワークフローのさまざまなフェーズで、DSSワーカー(データセットサービスワーカー)、EDAワーカー、セキュアモデリングワーカー、クイックワーカーなどのさまざまな種類のワーカーが使用されます。
ラングリング¶
使いやすいGUI環境でデータをインポート、探索、および変換できるようにする機能。
Webhook¶
A user-defined HTTP callback that allows one system to send real-time data to another system when a specific event occurs.
X¶
XEMP(eXemplarベースのモデル予測の説明)¶
すべてのモデルで機能する予測の説明を計算するための方法。 予測の説明、SHAPも参照してください。
はい¶
YAML¶
A human-readable configuration format used in DataRobot for defining model parameters, deployment settings, and workflow configurations. YAML files are commonly used in DataRobot projects to specify custom model environments, deployment configurations, and automation workflows, providing a clear and structured way to manage complex settings.
Z¶
Z score¶
保護された特徴量の特定のクラスが、母集団全体で「統計的に有意」であるかどうかを測定する指標。 バイアスと公平性のモデリングで使用されます。
Zero-shot学習¶
トレーニング中にそのタスクの例を一度も見たことがなくても、関連する知識からの一般化に頼ってタスクを実行するモデルの能力。