Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データのインポート

一般的なデータパイプラインは、データの読み込み操作から始まります。インポートモジュールは、外部データをパイプラインに取り込み、他のモジュールが使用できるようにします。

各モジュールタイプのデータ処理制限のセクションを参照してください。

AIカタログインポートモジュール

AIカタログインポートモジュールは、スナップショットが取得されたデータセットをAIカタログからパイプラインにインポートします。

次のオプションを使用して、詳細タブ内のでAIカタAIカタログインポートモジュールを設定します。

オプション 説明
データセット AIカタログからインポートするデータセットを選択します。
バージョン インポートするデータセットのバージョンを指定します。「常に最新のバージョンを使用」を選択すると、モジュールはデータセットの最新バージョンを使用して実行されます。
列タイプを強制的に文字列にする タイプを推測して数値などの他のタイプを検出するのではなく、インポートされたすべての列を文字列として扱います。大規模なデータセットで、一部の列タイプが誤って推測される場合に有効です。
行のチャンクサイズ 一度に処理される行数を指定します。DataRobotでは、特定のデータセットでパフォーマンス上またはメモリー上の問題が発生する場合にのみ、この値を調整することを推奨します。パフォーマンス問題であれば値を大きくし、メモリーの問題であれば小さくします。

CSV Readerモジュール

CSV Readerモジュールは、AWS S3ストレージサービスから区切り文字付きテキストファイルを読み込むインポートモジュールです。以下は、詳細タブでのCSV Readerの設定に使用されるオプションです。

オプション 説明
ファイルパス バケット名を含む、区切り文字付きテキストファイルのパスを指定します。
S3資格情報 プロフィールの「資格情報管理」セクションにある既存の認証情報を使用するか、アクセスキー、シークレットキー、AWSセッショントークンの詳細を入力して新しい認証情報のセットを作成します。
AWSリージョン S3バケットが存在するリージョンを入力します。デフォルト値はus-east-1です。
最初の行を列のヘッダーとして扱う ヘッダー行がない場合は、このチェックを外します。
区切り文字 フィールドの区切り文字を指定します。デフォルトはコンマです。
エンコーディング データのエンコーディングのタイプを指定します。デフォルトはUTF-8です。
列タイプを強制的に文字列にする タイプを推測して数値などの他のタイプを検出するのではなく、インポートされたすべての列を文字列として扱います。大規模なデータセットで、一部の列タイプが誤って推測される場合に有効です。
並列ストリーム 追加する並列処理ストリームの数を選択します。このオプションでは、取込み速度とメモリー使用量のどちらを優先させるかを選択できます。小さなデータセットの場合は、この値を大きくして実行速度を上げることができます。大きなデータセットの場合は、「メモリー不足」エラーを避けるために、この値を低く設定してください。
ブロックのサイズ(バイト) 一度に読み込むデータのブロック数(バイト数)を選択します。ブロック数を増やすと、モジュールと下流モジュールの速度がある程度向上しますが、大きなデータセットでは「メモリー不足」エラーが発生する可能性があります。ブロック数を減らすと、大きなデータセットでは「メモリー不足」エラーを回避できますが、設定が小さすぎると処理が遅くなります。

更新しました February 22, 2022
Back to top