データ操作の基礎¶
高品質のデータは、データのインポートとクリーニングから、特徴量の変換とエンジニアリング、予測データセットによるスコアリング、予測サーバーへのデプロイまで、機械学習ワークフローに不可欠であり、非常に重要です。
また、DataRobotは、汎用データ準備ツールであるData Prep(旧Paxata)や、時系列データのギャップの影響を軽減する時系列データ準備など、データのクリーニングや準備を支援するツールも提供しています。
DataRobotでデータを直接変換したり、特徴量探索を使用して複数のデータセットから新しい特徴量を検出および生成したりできます。 ここでは、複数のデータセットに含まれる特徴量間の関係性を定義します。 それにより、派生した特徴量の系統を表示できます。
DataRobotは、関係性設定の品質を評価するのに役立ち、ここに示す特徴量の系統ウィンドウのように、派生した特徴量を確認および管理するためのツールを提供します。
データソース¶
モデリングプロセスを開始するには、AIカタログ、設定済みデータ接続、ローカルファイル、URLなどのデータソースからインポートします。
以下を実行することが可能です。
-
AIカタログにデータをインポートし、そこからデータセットを選択する
-
接続されたデータソースから直接データをインポートする
-
ローカルファイルをインポートするか、データを取得するURLを指定する
データをアップロードすると、DataRobotはデータの品質を分析する探索的データ解析を行い、その結果をデータ品質評価ウィンドウに表示します。