パイプラインの作成¶
1つ以上のモジュールを追加してパイプラインを構築し、その後設定や接続をおこないます。
ポートとチャネル¶
パイプラインでは、各モジュールがポートを介してデータを生成および使用します。次の例では、チャネルを介してポートを接続する方法を示します。
要素 | 説明 | |
---|---|---|
![]() |
入力ポート | モジュールは、入力ポートを介して入力データを受け入れます。モジュールのタイプに応じて、複数の入力ポートを使用できます。既存または新規の上位モジュールにチャネルを追加するには、+ボタンを使用します。すでにチャネルを持つ入力ポートに新しいモジュールを追加すると、新しく追加されたモジュールは、チャネルの2つの既存モジュール間を仲介する役割を果たします。 |
![]() |
出力ポート | モジュールは、出力ポートでデータを生成します。既存または新規のモジュールにデータを送るには、出力ポートの+ボタンを使用します。モジュールのタイプに応じて、複数の出力ポートを使用できます。 |
![]() |
チャネル | あるモジュールの出力ポートと別のモジュールの入力ポートの間の接続をチャネルと呼びます。データは、あるモジュールから別のモジュールへとチャネルを介して流れます。 |
![]() |
複数のモジュールへのチャネル | 入力ポートは1つのチャネルからしかデータを受け取れませんが、出力ポートからのデータを複数のモジュールの入力ポートに流すことができます。 |
ポートとチャネルを接続するには、パイプラインを構築してポートを接続を参照してください。
モジュールタイプ別の許容ポート数¶
追加・設定できる入力および出力ポートの数は、モジュールタイプによって異なります。以下に例を示します。
モジュールタイプ | 入力ポートの許容数 | 出力ポートの許容数 |
---|---|---|
CSV Readerモジュール(AWS S3) | 0 | 1 |
AIカタログインポートモジュール | 0 | 1 |
Spark SQLモジュール | 0以上 | 1 |
AIカタログエクスポートモジュール | 1 | 0または1 |
CSV Writerモジュール(AWS S3) | 1 | 0 |
備考
システム内のその他のデータポートと異なり、AIカタログのエクスポートモジュールの出力ポートはメタデータポートです(出力はDATASET_ID
とAI_CATALOG_URL
です)。
パイプラインを構築してポートを接続¶
以下のタブを選択すると、モジュールの追加と接続方法、および切断方法がわかります。
-
ワークスペースエディターのグラフタブで、新しいモジュールの追加をクリックし、モジュールのタイプを選択します。
-
ワークスペースエディターで、モジュールにカーソルを合わせます。モジュールのポートに「+」ボタンが表示されます。
-
ポートの「+」ボタンをクリックします。
-
新しいモジュールを追加ページでモジュールタイプを選択すると、互換性のあるモジュールタイプだけが表示されます。
新しいモジュールが追加され、2つのモジュールが接続されます。
この手順では、接続したいモジュールがモジュールエディターに2つ以上あることを前提としています。
-
ワークスペースエディターのグラフタブで操作します。1つ目のモジュールのポート上でマウスを長押しします。
-
接続先の2つ目のモジュールのポートにマウスをドラッグします。
マウスを離すと、2つ目のモジュールにポートが自動的に追加され、1つ目のモジュールの出力ポートと2つ目のモジュールの入力ポートが一致するように、モジュールが再配置されます。
モジュールを切り離すには、モジュールを接続しているチャネルをクリックし、表示されるチャネル削除アイコン()をクリックして、チャネルを削除します。
パイプラインモジュールの編集¶
パイプラインに追加するモジュールごとに、他のモジュールとの接続を更新したり、設定したり、必要に応じてSQL変換を追加・編集したりする必要があるかもしれません。そのためには、モジュールエディターの右側にあるモジュールタブを使います。DataRobotは設定に基づいてモジュールを自動的にコンパイルし、モジュールのステータスをレポートします。
備考
以下のモジュールタブの説明は、すべてのモジュールタイプに当てはまります。ただし、モジュールのタイプによって、接続、設定、編集の要件が異なります。特定のモジュールタイプの要件については、以降のセクションを参照してください。
- CSV Readerモジュールについては、データのインポートを参照してください。
- Spark SQLモジュールについては、データ変換を参照してください。
- AIカタログエクスポートモジュールとCSV Writerモジュールについては、データのエクスポートを参照してください。
以下のタブを選択すると、モジュールの設定方法がわかります。
この例では、Spark SQLモジュールの接続設定を示します。
要素 | 説明 | |
---|---|---|
![]() |
モジュール名フィールドと説明フィールド | モジュール名をカスタマイズし、説明を追加します。 |
![]() |
入力 | 入力ポートの名前をカスタマイズします。 |
![]() |
出力 | 出力ポートの名前をカスタマイズします。 |
![]() |
+ 追加 | 入力および出力リストの右側にある+ 追加ボタンをクリックして、ポートを追加します。なお、そのモジュールタイプに対して最大数のポートを追加すると、+ 追加ボタンがグレー表示されます。上の例では、複数の入力が可能なSpark SQLモジュールが含まれています。モジュールタイプ別のポートの許容値を参照してください。 |
![]() |
ソースドロップダウンメニュー | ソースドロップダウンメニューから、接続先のポートの名前を選択します。チャンネルの設定は、リストの中から利用可能なポートを選択して行います。入力では、既存モジュールにおいて利用可能な出力ポートがリストに表示されます。出力では、既存モジュールにおいて利用可能な入力ポートがリストに表示されます。接続可能なポートがない場合、ソースドロップダウンリストは表示されません。これらの設定を使用して、ポート間で既存のチャンネルを再接続できます。 |
![]() |
削除 | ゴミ箱アイコン![]() |
この例では、CSV Readerモジュールの設定を示します。
備考
詳細タブでは、モジュールのインポートとエクスポートの設定を行います。Spark SQLモジュールの場合、詳細タブにはエディターが表示されます。
要素 | 説明 | |
---|---|---|
![]() |
ファイルパスフィールド | S3バケットのパスを入力します。 |
![]() |
S3資格情報 | ドロップダウンからS3資格情報を選択し、追加をクリックします。バケットに必要な資格情報を入力します。 |
この例では、Spark SQLモジュールの詳細タブを示します。
備考
この詳細タブ表示は、Spark SQLモジュールに固有であり、CSV Readerモジュールなどのインポートモジュール、AIカタログエクスポートやCSV Writerモジュールなどのエクスポートモジュールには当てはまりません。
要素 | 説明 | |
---|---|---|
![]() |
SQL編集ウィンドウ | 編集ウィンドウにSQLクエリーを入力します。エディターは更新内容を自動的に保存します。エラーや警告は、ワークスペースエディターの下にあるコンソールタブに表示されます。 |
![]() |
[アクション]メニュー | 詳細タブの右下にあるメニューから、SQL関連の操作を選択します。 |
![]() |
SQLのフォーマット | SQLコードを読み取り可能な形式で表示します。 |
![]() |
スキーマの作成 | SQLクエリーを入力する際にデータセットの列名を自動入力できるようなスキーマを構築します。「スキーマの作成」では、スキーマを構築する目的で、アップストリーム入力を実行します。 |
![]() |
Sparkドキュメント | Spark SQLの組み込み関数のドキュメントを新しいブラウザータブに表示します。 |
パイプラインが完成するまで、モジュールの追加を続けます。モジュールのインポート、変換、エクスポートの設定については、次を参照してください:
pipeline.yml設定の編集¶
モジュールタブで行った変更は、ワークスペースのpipeline.ymlタブで更新されます。このタブには、モジュールの接続および詳細タブでの更新結果が表示されます。パイプラインでモジュールを追加または更新するもう1つの方法は、pipeline.ymlタブでpipeline.yml
コードを直接編集することです。
エディターは更新内容を自動的に保存します。
ヒント
pipeline.ymlタブの内容をコピーして新しいワークスペースを作成し、クリップボードの内容をpipeline.ymlタブに貼り付けることで、ワークスペースのクローンを作成できます。