DataRobotパイプライン¶
DataRobotパイプラインを使用すると、データサイエンスとエンジニアリングチームは機械学習データフローを構築して実行できます。まず、さまざまなソースからデータを収集し、それらをクリーニングして、組み合わせることから始めます。他のデータ準備作業の中で値を標準化し、分析単位でデータセットを構築します。
再現可能なデータの抽出と準備を簡単にするために、多くの場合、チームは_データパイプライン_(つながったデータセットを処理するための手順)を構築することで、モデルのトレーニング、予測の作成、その他の関連するユースケースに適用するためのデータを準備します。
DataRobotパイプラインでは、さまざまな形式のデータソースに接続し、データを変換することで、機械学習のデータフローを構築し、調整することができます。
このセクションでは、ワークスペースとパイプラインの操作方法について説明します。
トピック | 説明... |
---|---|
パイプラインのワークスペース | ワークスペースの追加と編集を行います。 |
パイプラインの作成 | モジュールを追加して接続し、パイプラインを構築します。 |
パイプラインの実行 | 正常にコンパイルされたモジュールを実行します。モジュールは、単独で実行することも、パスの一部として実行することもできます。 |
データのインポート | 外部データをパイプラインに取り込みます。 |
データの変換 | Spark SQLを使用してデータ変換を行います。 |
データのエクスポート | AIカタログやS3などの設定済みデータソースにデータをエクスポートします。 |
モジュールタイプによるデータ処理の制限¶
次の表は、各モジュールタイプに対するデータ処理の制限を示します。
モジュールタイプ | データ制限 |
---|---|
CSV Readerモジュール | 100GB |
AIカタログインポートモジュール | 10GB |
Spark SQLモジュール | 100GB |
AIカタログエクスポートモジュール | 10GB |
CSV Writerモジュール | 100GB |
更新しました February 22, 2022
このページは役に立ちましたか?
ありがとうございます。どのような点が役に立ちましたか?
より良いコンテンツを提供するには、どうすればよいでしょうか?
アンケートにご協力いただき、ありがとうございました。