Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

パイプラインの作成

1つ以上のモジュールを追加してパイプラインを構築し、その後設定や接続をおこないます。

ポートとチャネル

パイプラインでは、各モジュールがポートを介してデータを生成および使用します。次の例では、チャネルを介してポートを接続する方法を示します。

要素 説明
入力ポート モジュールは、入力ポートを介して入力データを受け入れます。モジュールのタイプに応じて、複数の入力ポートを使用できます。既存または新規の上位モジュールにチャネルを追加するには、+ボタンを使用します。すでにチャネルを持つ入力ポートに新しいモジュールを追加すると、新しく追加されたモジュールは、チャネルの2つの既存モジュール間を仲介する役割を果たします。
出力ポート モジュールは、出力ポートでデータを生成します。既存または新規のモジュールにデータを送るには、出力ポートの+ボタンを使用します。モジュールのタイプに応じて、複数の出力ポートを使用できます。
チャネル あるモジュールの出力ポートと別のモジュールの入力ポートの間の接続をチャネルと呼びます。データは、あるモジュールから別のモジュールへとチャネルを介して流れます。
複数のモジュールへのチャネル 入力ポートは1つのチャネルからしかデータを受け取れませんが、出力ポートからのデータを複数のモジュールの入力ポートに流すことができます。

ポートとチャネルを接続するには、パイプラインを構築してポートを接続を参照してください。

モジュールタイプ別の許容ポート数

追加・設定できる入力および出力ポートの数は、モジュールタイプによって異なります。以下に例を示します。

モジュールタイプ 入力ポートの許容数 出力ポートの許容数
CSV Readerモジュール(AWS S3) 0 1
AIカタログインポートモジュール 0 1
Spark SQLモジュール 0以上 1
AIカタログエクスポートモジュール 1 0または1
CSV Writerモジュール(AWS S3) 1 0

備考

システム内のその他のデータポートと異なり、AIカタログのエクスポートモジュールの出力ポートはメタデータポートです(出力はDATASET_IDAI_CATALOG_URLです)。

パイプラインを構築してポートを接続

以下のタブを選択すると、モジュールの追加と接続方法、および切断方法がわかります。

  1. ワークスペースエディターのグラフタブで、新しいモジュールの追加をクリックし、モジュールのタイプを選択します。

  2. ワークスペースエディターで、モジュールにカーソルを合わせます。モジュールのポートに「+」ボタンが表示されます。

  3. ポートの「+」ボタンをクリックします。

  4. 新しいモジュールを追加ページでモジュールタイプを選択すると、互換性のあるモジュールタイプだけが表示されます。

    新しいモジュールが追加され、2つのモジュールが接続されます。

この手順では、接続したいモジュールがモジュールエディターに2つ以上あることを前提としています。

  1. ワークスペースエディターのグラフタブで操作します。1つ目のモジュールのポート上でマウスを長押しします。

  2. 接続先の2つ目のモジュールのポートにマウスをドラッグします。

    マウスを離すと、2つ目のモジュールにポートが自動的に追加され、1つ目のモジュールの出力ポートと2つ目のモジュールの入力ポートが一致するように、モジュールが再配置されます。

モジュールを切り離すには、モジュールを接続しているチャネルをクリックし、表示されるチャネル削除アイコン()をクリックして、チャネルを削除します。

パイプラインモジュールの編集

パイプラインに追加するモジュールごとに、他のモジュールとの接続を更新したり、設定したり、必要に応じてSQL変換を追加・編集したりする必要があるかもしれません。そのためには、モジュールエディターの右側にあるモジュールタブを使います。DataRobotは設定に基づいてモジュールを自動的にコンパイルし、モジュールのステータスをレポートします。

備考

以下のモジュールタブの説明は、すべてのモジュールタイプに当てはまります。ただし、モジュールのタイプによって、接続、設定、編集の要件が異なります。特定のモジュールタイプの要件については、以降のセクションを参照してください。

以下のタブを選択すると、モジュールの設定方法がわかります。

この例では、Spark SQLモジュールの接続設定を示します。

要素 説明
モジュール名フィールドと説明フィールド モジュール名をカスタマイズし、説明を追加します。
入力 入力ポートの名前をカスタマイズします。
出力 出力ポートの名前をカスタマイズします。
+ 追加 入力および出力リストの右側にある+ 追加ボタンをクリックして、ポートを追加します。なお、そのモジュールタイプに対して最大数のポートを追加すると、+ 追加ボタンがグレー表示されます。上の例では、複数の入力が可能なSpark SQLモジュールが含まれています。モジュールタイプ別のポートの許容値を参照してください。
ソースドロップダウンメニュー ソースドロップダウンメニューから、接続先のポートの名前を選択します。チャンネルの設定は、リストの中から利用可能なポートを選択して行います。入力では、既存モジュールにおいて利用可能な出力ポートがリストに表示されます。出力では、既存モジュールにおいて利用可能な入力ポートがリストに表示されます。接続可能なポートがない場合、ソースドロップダウンリストは表示されません。これらの設定を使用して、ポート間で既存のチャンネルを再接続できます。
削除 ゴミ箱アイコンをクリックするとポートが削除されます。

この例では、CSV Readerモジュールの設定を示します。

備考

詳細タブでは、モジュールのインポートとエクスポートの設定を行います。Spark SQLモジュールの場合、詳細タブにはエディターが表示されます。

要素 説明
ファイルパスフィールド S3バケットのパスを入力します。
S3資格情報 ドロップダウンからS3資格情報を選択し、追加をクリックします。バケットに必要な資格情報を入力します。

この例では、Spark SQLモジュールの詳細タブを示します。

備考

この詳細タブ表示は、Spark SQLモジュールに固有であり、CSV Readerモジュールなどのインポートモジュール、AIカタログエクスポートやCSV Writerモジュールなどのエクスポートモジュールには当てはまりません。

要素 説明
SQL編集ウィンドウ 編集ウィンドウにSQLクエリーを入力します。エディターは更新内容を自動的に保存します。エラーや警告は、ワークスペースエディターの下にあるコンソールタブに表示されます。
[アクション]メニュー 詳細タブの右下にあるメニューから、SQL関連の操作を選択します。
SQLのフォーマット SQLコードを読み取り可能な形式で表示します。
スキーマの作成 SQLクエリーを入力する際にデータセットの列名を自動入力できるようなスキーマを構築します。「スキーマの作成」では、スキーマを構築する目的で、アップストリーム入力を実行します。
Sparkドキュメント Spark SQLの組み込み関数のドキュメントを新しいブラウザータブに表示します。

パイプラインが完成するまで、モジュールの追加を続けます。モジュールのインポート、変換、エクスポートの設定については、次を参照してください:

pipeline.yml設定の編集

モジュールタブで行った変更は、ワークスペースのpipeline.ymlタブで更新されます。このタブには、モジュールの接続および詳細タブでの更新結果が表示されます。パイプラインでモジュールを追加または更新するもう1つの方法は、pipeline.ymlタブでpipeline.ymlコードを直接編集することです。

エディターは更新内容を自動的に保存します。

ヒント

pipeline.ymlタブの内容をコピーして新しいワークスペースを作成し、クリップボードの内容をpipeline.ymlタブに貼り付けることで、ワークスペースのクローンを作成できます。


更新しました February 22, 2022
Back to top