データの操作(Classic)¶
高品質のデータは、データのインポートとクリーニングから、特徴量の変換とエンジニアリング、予測データセットによるスコアリング、予測サーバーへのデプロイまで、機械学習ワークフローに不可欠であり、非常に重要です。 DataRobotには、データをシームレスかつ安全に操作するためのツールが用意されています。
外部データソースを含む様々なソースからデータをインポートすることで、データの移動を最小限に抑え、クラウドデータウェアハウスやレイク全体でデータガバナンスをコントロールします。
データのパターンとインサイトを探索:何百もの価値ある新しい特徴量を自動的に検出、テスト、作成します。
1:データのインポート¶
AIカタログから、接続されたデータソースから直接、またはローカルファイルとして、DataRobotプラットフォームにデータをインポートします。
2:データの探索¶
データをインポートすると、DataRobotは探索的データ解析を実行します。これは、データセットを分析して、主な特徴を要約し、 特徴量変換を自動作成するプロセスであり、その結果はプロジェクトのデータページに表示されます。
EDA1が完了したら、データ品質評価を使って、データセットで表面化した品質の問題を見つけ、対処することができます。
3:データの準備¶
データセットを探索し、改善すべき点を特定したので、次のことができます。
手動特徴量変換を実行します。
特徴量探索プロジェクトでセカンダリーデータセットを追加し、プライマリーデータセットとの関係性を定義します。
次のステップ¶
データが必要な場所に揃ったので、モデリングを始めることができます。