データ¶
データの整合性と質は、精度の高い予測モデル作成の基礎です。 これらのセクションでは、プロジェクトが「ガベージイン、ガベージアウト」の結果に悩まされないようにするためにDataRobotが提供するツールと視覚化について説明します。
その他の重要情報については、関連する注意事項を参照してください。 データセットの要件も参照してください。
トピック | 説明 |
---|---|
データセットの要件 | データセットの要件、データ型の定義、ファイル形式とエンコーディング、および特殊な列の取り扱い。 |
データソースに接続 | データベース接続を設定し、安全に保存された資格情報を管理して、安全なデータソースにアクセスする際に再利用できるようにします。 |
AIカタログ | データをAIカタログにインポートすると、SQLを使ったデータ変換や、データのスナップショットのスケジュールや作成を行うことが可能です。 次に、カタログアセットからDataRobotプロジェクトを作成します。 |
データのインポート | さまざまなソースからデータをインポートする。 |
データの変換 | プライマリーデータセットを変換し、複数のデータセットに対して特徴量探索を実行する。 |
データの分析 | レポートと視覚化(EDA1およびEDA2の後に作成)を使用したデータの調査。 |
データに関するFAQ | データの準備と管理に関してよくある質問のリストと簡単な回答、およびより詳細なドキュメントへのリンク。 |
DataRobotで特徴量ストアを構築する方法¶
特徴量ストアは、頻繁に使用される特徴量が保存され、再利用と共有のために整理される中央リポジトリとして機能します。 既存の機能を使用して、DataRobotで特徴量ストアを構築できます。
- 特徴量ストレージ: データレジストリと AIカタログ、および 資格情報管理に保存された資格情報を使用して、外部データソースに接続し、データを追加します。
- 特徴量の変換:ワークベンチで ラングリングレシピを作成し、データに変換を適用します。
- WranglerレシピSQLを使用し、 AIカタログ内でスケジューリングすることで、バッチ処理のオフラインサービスを実行します。
- 特徴量キャッシュを使用して、リアルタイム処理のオンラインサービスを実行します。
- データ監視:ワークベンチの 探索的データインサイト(EDA)または ジョブを使用してデータを監視します。
- 自動化:自動化を実行するための カスタムジョブを作成します。
機能に関する注意事項¶
以下は、DataRobotで作業する上でのデータ関連の考慮事項です。
一般的な注意事項¶
非時系列プロジェクトの場合(時系列に関する注意事項については、こちらをご覧ください):
-
XLSXファイルの取込みは、対応するCSV形式の取込みほどにはうまく機能しないことがよくあります。 XLSX形式では、処理開始前にファイル全体をRAMにロードする必要があります。これにより、RAMの可用性エラーが発生することがあります。 ロードが正常終了しても、CSV(ファイル全体のロードが完了する前に処理を開始することができる)よりもパフォーマンスは低くなります。 上記を踏まえて、XLSXのファイルサイズには制限を設けることを推奨します。 下記よりもファイルサイズが大きい場合は、ExcelファイルをCSVに変換してからインポートします。 詳しくは、データセットの要件をご覧ください。
-
予測APIを使用する場合、リクエストの本文サイズは50MBに制限されます。 専用の予測ワーカーを使用して50MB以上の予測の取得をリクエストした場合、
HTTP response HTTP 413: Entity Too Large
で失敗します。 - エクスポート可能なJavaスコアリングコードは、モデル構築時に大量のRAMを使用するため、データセットのサイズは8GB未満である必要があります。
クラウドへの10GB取込みについて¶
本機能の提供について
10GB取込みオプションは、DataRobot Business Criticalパッケージのライセンスユーザーのみが利用でき、さらにAutoMLプロジェクト(時系列を除く)のみで使用できます。
AutoMLプロジェクトの10G取込みオプションを使用する場合、以下の点に注意してください。
- 以下に示すように、一部のモデリングアクティビティでは、可用性が10GBに満たないことがあります。
- この機能は、連続値、二値分類、多クラスAutoMLプロジェクトで利用可能です。
- 使用するデータ構造や機能によっては、10GB近いデータセットのプロジェクトの作成に数時間かかることがあります。
データやモデリング作業の内容によっては、10GBのデータセットによってメモリー不足(OOM)エラーが発生することもあります。 以下の接続を実行したため、テスト中にOOMエラーが発生しました。
- モデルがリポジトリから構築されています。サンプルサイズを小さくしてモデルを再試行してください。
- 特徴量のインパクトのインサイトが原因です。サンプルサイズを小さくして特徴量のインパクトジョブを再実行してください。
- 高度なチューニングでは、特に次のようなチューニングを実行します。a) XGboost/LGBMモデルへのツリーの追加 b) 多くのパラメーターのディープグリッド検索。
- より多くのサンプルサイズでモデルを再トレーニングします。
- 5~10クラスの多クラスプロジェクト。
- 特徴量ごとの作用のインサイト:特徴量の数を減らしてください。
- 特に2.5GBを超えるデータセットを対象にした異常検知モデル。
アプリケーションの特定の領域には、10GBの制限がある場合があります。 注意事項:
- Location AI(地理空間モデリング)には、10,000,000行と500数値列という制限があります。 この制限を超えるデータセットは、通常のAutoMLモデリングプロジェクトとして実行できますが、Spatial Neighborhood Featurizerは実行できません(地理空間固有モデルが作成されません)。
- 時間外検定(OTV)モデリングは、最大5GBのデータセットをサポートします。