データのインポート¶
一般的なデータパイプラインは、データの読み込み操作から始まります。インポートモジュールは、外部データをパイプラインに取り込み、他のモジュールが使用できるようにします。
各モジュールタイプのデータ処理制限のセクションを参照してください。
AIカタログインポートモジュール¶
AIカタログインポートモジュールは、スナップショットが取得されたデータセットをAIカタログからパイプラインにインポートします。
次のオプションを使用して、詳細タブ内のでAIカタAIカタログインポートモジュールを設定します。
オプション | 説明 |
---|---|
データセット | AIカタログからインポートするデータセットを選択します。 |
バージョン | インポートするデータセットのバージョンを指定します。「常に最新のバージョンを使用」を選択すると、モジュールはデータセットの最新バージョンを使用して実行されます。 |
列タイプを強制的に文字列にする | タイプを推測して数値などの他のタイプを検出するのではなく、インポートされたすべての列を文字列として扱います。大規模なデータセットで、一部の列タイプが誤って推測される場合に有効です。 |
行のチャンクサイズ | 一度に処理される行数を指定します。DataRobotでは、特定のデータセットでパフォーマンス上またはメモリー上の問題が発生する場合にのみ、この値を調整することを推奨します。パフォーマンス問題であれば値を大きくし、メモリーの問題であれば小さくします。 |
CSV Readerモジュール¶
CSV Readerモジュールは、AWS S3ストレージサービスから区切り文字付きテキストファイルを読み込むインポートモジュールです。以下は、詳細タブでのCSV Readerの設定に使用されるオプションです。
オプション | 説明 |
---|---|
ファイルパス | バケット名を含む、区切り文字付きテキストファイルのパスを指定します。 |
S3資格情報 | プロフィールの「資格情報管理」セクションにある既存の認証情報を使用するか、アクセスキー、シークレットキー、AWSセッショントークンの詳細を入力して新しい認証情報のセットを作成します。 |
AWSリージョン | S3バケットが存在するリージョンを入力します。デフォルト値はus-east-1です。 |
最初の行を列のヘッダーとして扱う | ヘッダー行がない場合は、このチェックを外します。 |
区切り文字 | フィールドの区切り文字を指定します。デフォルトはコンマです。 |
エンコーディング | データのエンコーディングのタイプを指定します。デフォルトはUTF-8です。 |
列タイプを強制的に文字列にする | タイプを推測して数値などの他のタイプを検出するのではなく、インポートされたすべての列を文字列として扱います。大規模なデータセットで、一部の列タイプが誤って推測される場合に有効です。 |
並列ストリーム | 追加する並列処理ストリームの数を選択します。このオプションでは、取込み速度とメモリー使用量のどちらを優先させるかを選択できます。小さなデータセットの場合は、この値を大きくして実行速度を上げることができます。大きなデータセットの場合は、「メモリー不足」エラーを避けるために、この値を低く設定してください。 |
ブロックのサイズ(バイト) | 一度に読み込むデータのブロック数(バイト数)を選択します。ブロック数を増やすと、モジュールと下流モジュールの速度がある程度向上しますが、大きなデータセットでは「メモリー不足」エラーが発生する可能性があります。ブロック数を減らすと、大きなデータセットでは「メモリー不足」エラーを回避できますが、設定が小さすぎると処理が遅くなります。 |
更新しました February 22, 2022
このページは役に立ちましたか?
ありがとうございます。どのような点が役に立ちましたか?
より良いコンテンツを提供するには、どうすればよいでしょうか?
アンケートにご協力いただき、ありがとうございました。