データに関するFAQ¶
AIカタログとは何ですか?
AIカタログは、データおよびその他のアセットをインポートし、登録し、共有するためのDataRobotツールです。 カタログは、定義および他のアセットとの関係性など、登録されたアセットの参照と検索をサポートします。
DataRobotではどのようなタイプのファイルを取り込めますか?
DataRobotは、テキスト、Excel、SAS、およびさまざまな圧縮またはアーカイブファイルを取込むことができます。 サポートされているファイル形式は、プロジェクト(開始)ページの下部に一覧表示されます。 DataRobotに直接ファイルをインポート可能で、また、 AIカタログにファイルをインポートすることもできます。
DataRobotはどのようなデータソースに接続できますか?
DataRobotは、 JDBC対応のデータソースだけでなく、S3、Azure Blob、Google Cloud Storage、URLなどから取込むことができます。
ヒストグラムは何に使われるのですか?
ヒストグラムは、数値の特徴量値を均等なサイズの複数の範囲に分割して、特徴量(機能)の大まかな分布を示します。 データタブで特徴量を展開することで、特徴量のヒストグラムにアクセスします。
データタブの黄色の三角形は何を意味しますか?
データをアップロードすると、DataRobotは、一般的なデータ品質の問題を自動的に検出して識別します。 データ品質評価レポートは、これらのデータ品質の問題を、黄色の三角形の警告で示します。 三角形にカーソルを合わせると、過剰なゼロや外れ値などの特異な品質問題が表示されます。
データセットを共有するにはどうすればよいですか?
AIカタログを使用して、ユーザー、グループ、および組織と データセットを共有します。 オーナー(表示、編集、管理ができる)になれる、エディター(表示、編集ができる)になれる、またはコンシューマー(表示できる)になれるアセット—を共有するユーザーのロールを選択できます。
DataRobotではどのように特徴量が削減されますか?
DataRobotは、モデリングライフサイクルの複数の段階で、特徴量削減を自動的に実行します。
- EDA1の間:データをアップロードすると、DataRobotは、固有の値が多すぎるなどの非有益な特徴量を除外することで、有用な特徴量セットを作成します。
- EDA2の後:開始をクリックすると、DataRobotは、ターゲットリーケージのある特徴量(ターゲットとの相関性が高い特徴量)とACEスコアが0.0005未満の特徴量(ターゲットとの相関性がごくわずかである特徴量)を削除します。
- モデルのトレーニングと分析中:DataRobotは、余分な特徴量をすべて削除し、モデルを再トレーニングして、特徴量有用性の累積スコアが0.95を超える特徴量を維持します。
- モデルのブループリントの手順を以下に記します。一部のアルゴリズムにより、係数を0.5に縮小することで、LASSOおよびENETを始めとする内在的特徴量削減を提供します。
- 自動特徴量探索:特徴量探索プロジェクトは、セカンダリーデータセット(複数可)に基づいて特徴量を探索して生成し、 管理された特徴量削減を実行して、特徴量有用性の推定累積スコアが0.98を超える特徴量のみを保持します。
詳細情報は、 データ変換に関するドキュメントをご覧ください。
有用な特徴量とは何ですか?
有用な特徴量は、モデリングに潜在的な有用な特徴量です。 DataRobotでは、 有益な特徴量セットを生成し、有用でない特徴量は削除されます。 例として、リファレンスID、空の値を含む特徴量、ターゲットから派生した特徴量などがあります。 DataRobotは、日付タイプの特徴量などの特徴量も作成します。有用な場合は、有用な特徴量セットにそれらを含めます。
スナップショットとは何ですか?
AIカタログで、データのスナップショットを作成できます。その場合、DataRobotは、データのコピーをカタログに保存します。 その後、定期的に更新するために、 スナップショットをスケジュールできます。 スナップショットを作成しない場合、データは、プロファイル統計用の動的DataRobotサンプルですが、データのコピーは保持されません。 代わりに、カタログはデータへのポインターを保存し、プロジェクトの作成時などに、要求に応じてデータを引き出します。
データタブの緑色の「有用性」バーとは何ですか?
有用性バーは、特徴量がターゲットと相関している度合いを示します。 これらのバーは「交替条件付き期待値」(ACE)スコアに基づいており、ターゲットとの非線形の関係性を検出しますが、特徴量間の交互作用の効果は検出できません。 有用性は、特徴量の情報内容を測定します。この計算は、プロジェクト内の特徴量ごとに行われます。
データセットはどのくらいのサイズまで拡張できますか?
ファイルサイズの要件は、デプロイタイプ(クラウドとオンプレミス)、および AutoML、 時系列、および/または 特徴量探索を使用しているかどうかによって異なります。