Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データに関するFAQ

AIカタログとは何ですか?

AIカタログは、データおよびその他のアセットをインポートし、登録し、共有するためのDataRobotツールです。 カタログは、定義および他のアセットとの関係性など、登録されたアセットの参照と検索をサポートします。

DataRobotではどのようなタイプのファイルを取り込めますか?

DataRobotは、テキスト、Excel、SAS、およびさまざまな圧縮またはアーカイブファイルを取込むことができます。 サポートされているファイル形式は、プロジェクト(開始)ページの下部に一覧表示されます。 DataRobotに直接ファイルをインポート可能で、また、 AIカタログにファイルをインポートすることもできます。

DataRobotはどのようなデータソースに接続できますか?

DataRobotは、 JDBC対応のデータソースだけでなく、S3、Azure Blob、Google Cloud Storage、URLなどから取込むことができます。

ヒストグラムは何に使われるのですか?

ヒストグラムは、数値の特徴量値を均等なサイズの複数の範囲に分割して、特徴量(機能)の大まかな分布を示します。 データタブで特徴量を展開することで、特徴量のヒストグラムにアクセスします。

データタブの黄色の三角形は何を意味しますか?

データをアップロードすると、DataRobotは、一般的なデータ品質の問題を自動的に検出して識別します。 データ品質評価レポートは、これらのデータ品質の問題を、黄色の三角形の警告で示します。 三角形にカーソルを合わせると、過剰なゼロや外れ値などの特異な品質問題が表示されます。

データセットを共有するにはどうすればよいですか?

AIカタログを使用して、ユーザー、グループ、および組織と データセットを共有します。 オーナー(表示、編集、管理ができる)になれる、エディター(表示、編集ができる)になれる、またはコンシューマー(表示できる)になれるアセット—を共有するユーザーのロールを選択できます。

DataRobotではどのように特徴量が削減されますか?

DataRobotは、モデリングライフサイクルの複数の段階で、特徴量削減を自動的に実行します。

  1. EDA1の間:データをアップロードすると、DataRobotは、固有の値が多すぎるなどの非有益な特徴量を除外することで、有用な特徴量セットを作成します。
  2. EDA2の後:開始をクリックすると、DataRobotは、ターゲットリーケージのある特徴量(ターゲットとの相関性が高い特徴量)とACEスコアが0.0005未満の特徴量(ターゲットとの相関性がごくわずかである特徴量)を削除します。
  3. モデルのトレーニングと分析中:DataRobotは、余分な特徴量をすべて削除し、モデルを再トレーニングして、特徴量有用性の累積スコアが0.95を超える特徴量を維持します。
  4. モデルのブループリントの手順を以下に記します。一部のアルゴリズムにより、係数を0.5に縮小することで、LASSOおよびENETを始めとする内在的特徴量削減を提供します。
  5. 自動特徴量探索:特徴量探索プロジェクトは、セカンダリーデータセット(複数可)に基づいて特徴量を探索して生成し、 管理された特徴量削減を実行して、特徴量有用性の推定累積スコアが0.98を超える特徴量のみを保持します。

詳細情報は、 データ変換に関するドキュメントをご覧ください。

有用な特徴量とは何ですか?

有用な特徴量は、モデリングに潜在的な有用な特徴量です。 DataRobotでは、 有益な特徴量セットを生成し、有用でない特徴量は削除されます。 例として、リファレンスID、空の値を含む特徴量、ターゲットから派生した特徴量などがあります。 DataRobotは、日付タイプの特徴量などの特徴量も作成します。有用な場合は、有用な特徴量セットにそれらを含めます。

スナップショットとは何ですか?

AIカタログで、データのスナップショットを作成できます。その場合、DataRobotは、データのコピーをカタログに保存します。 その後、定期的に更新するために、 スナップショットをスケジュールできます。 スナップショットを作成しない場合、データは、プロファイル統計用の動的DataRobotサンプルですが、データのコピーは保持されません。 代わりに、カタログはデータへのポインターを保存し、プロジェクトの作成時などに、要求に応じてデータを引き出します。

データタブの緑色の「有用性」バーとは何ですか?

有用性バーは、特徴量がターゲットと相関している度合いを示します。 これらのバーは「交替条件付き期待値」(ACE)スコアに基づいており、ターゲットとの非線形の関係性を検出しますが、特徴量間の交互作用の効果は検出できません。 有用性は、特徴量の情報内容を測定します。この計算は、プロジェクト内の特徴量ごとに行われます。

データセットはどのくらいのサイズまで拡張できますか?

ファイルサイズの要件は、デプロイタイプ(クラウドとオンプレミス)、および AutoML時系列、および/または 特徴量探索を使用しているかどうかによって異なります。


更新しました 2024年6月7日