Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

DataRobotパイプライン

DataRobotパイプラインを使用すると、データサイエンスとエンジニアリングチームは機械学習データフローを構築して実行できます。まず、さまざまなソースからデータを収集し、それらをクリーニングして、組み合わせることから始めます。他のデータ準備作業の中で値を標準化し、分析単位でデータセットを構築します。

再現可能なデータの抽出と準備を簡単にするために、多くの場合、チームは_データパイプライン_(つながったデータセットを処理するための手順)を構築することで、モデルのトレーニング、予測の作成、その他の関連するユースケースに適用するためのデータを準備します。

DataRobotパイプラインでは、さまざまな形式のデータソースに接続し、データを変換することで、機械学習のデータフローを構築し、調整することができます。

このセクションでは、ワークスペースとパイプラインの操作方法について説明します。

トピック 説明...
パイプラインのワークスペース ワークスペースの追加と編集を行います。
パイプラインの作成 モジュールを追加して接続し、パイプラインを構築します。
パイプラインの実行 正常にコンパイルされたモジュールを実行します。モジュールは、単独で実行することも、パスの一部として実行することもできます。
データのインポート 外部データをパイプラインに取り込みます。
データの変換 Spark SQLを使用してデータ変換を行います。
データのエクスポート AIカタログやS3などの設定済みデータソースにデータをエクスポートします。

モジュールタイプによるデータ処理の制限

次の表は、各モジュールタイプに対するデータ処理の制限を示します。

モジュールタイプ データ制限
CSV Readerモジュール 100GB
AIカタログインポートモジュール 10GB
Spark SQLモジュール 100GB
AIカタログエクスポートモジュール 10GB
CSV Writerモジュール 100GB

更新しました February 22, 2022
Back to top