Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

自動プロジェクトフロー

注意

APF機能は有効化される必要があります。プロジェクトページの上部にプロジェクトフローを作成ボタンが表示されない場合は、Data Prepのシステム管理者にお問い合わせください。

Data Prep自動プロジェクトフロー(APF)機能を使用すれば、キュレーションされたデータの流れをインテリジェントに運用できます。APF は複数のプロジェクト、データセット、AnswerSetにまたがるデータ準備ステップのシーケンス全体を計算し、データに対応するエンドツーエンド(完結型)の自動化出力フローを生成します。時刻に基づくスケジュールでフローを繰り返し実行するか、または 1 度だけ実行して最終的結果の AnswerSet を生成するように設定してください。次に、APFの監視機能を使用してすべての実行を管理します。ビジネスアナリストやデータエンジニアは、複雑なデータの流れをData Prepプロジェクトの小さいグループに分割して、簡素化するためAPFを使用します。

APFでは、データフローの運用を可能にします。各プロジェクトが関連する、または結合度の高い一連のステップを実行することで、読みやすさを向上させ、複雑さを抑えます。プロジェクトを作成した後、シーケンスの最終プロジェクトをターゲットプロジェクトとして選択できます。残りの作業、つまりエンドツーエンドのフロー全体のシーケンシング、準備、自動化については、APFが実行し、手動の調整などは必要ありません。

APFは、チームがデータを共有し、ビジネスリーダーやITリーダーから情報を収集することに役立ちます。チームメンバーは、他の方が作成した出力AnswerSetに応じてData Prepプロジェクトを構築できます。メンバーは、自分のData PrepプロジェクトでData Prep作業を完了し、単一のターゲットプロジェクトからシーケンス全体の運用を可能にします。APF は、プロジェクトや AnswerSetの作成者にも所有者にも関係なく、手動の調整を必要とせずに作業を実行します。チームのメンバーはフローを監視し、グラフを見てプロジェクトとAnswerSetがフローの最終出力にどのように寄与しているかを確認できます。

APFの例

この例では、APFは、複数の人が作成した一連のData PrepプロジェクトとAnswerSetから、最終状態の「売上変動レポート」を生成します。

Bobは、自身の 「製品階層」データのためにデータレイクに接続し、準備して、クラウドアプリから「販売取引履歴」のデータを取得するSusanと共有されるAnswerSetを生成します。

Susanはこのデータを準備し、AnswerSetを作成し、Varyaが管理する売上変動プロジェクトのために彼女と共有します。SusanからのAnswerSetに加えて、Varyaは、クラウドストレージからプルしたExcelレポートからのデータも結合します。

Varyaがデータの準備を終了すると、彼女は「売上変動レポート」のAnswerSetを作成します。彼女は、毎週このレポートを作成する必要があります。彼女は、売上変動プロジェクトでプロジェクトフローを作成をクリックし、フローを実行するための時間ベースのトリガーを設定します。最終状態のAnswerSetの生成に必要な依存関係のチェーンを作成するために、APFは関連のプロジェクト、AnswerSet、およびデータセットのフローを遡って通過します。Varyaは次に、フローの後続のすべての実行を管理するためにAPF監視インターフェースを使用します。

APFの要件

  • 関係者は、フローを作成する前に、フロー内のすべてのデータセットとすべてのプロジェクトに対する権限を持っている必要があります。持っていないと正常に実行されません。

    備考

    関係者が AnswerSet の権限を所有していれば、AnswerSet が生成された元となるプロジェクトの権限を有していない場合でも、読み取り権限が終了するまではフローを作成することができます。フロー作成におけるこの柔軟性により、関係者は独立したアクセス権限がある部分のフローの運用化を管理できます。

  • 関係者は、監視インターフェースからそれらを管理するために、フロー内のすべてのデータセットおよびプロジェクトに対する権限も持っている必要があります。Data Prepのシステムの管理者は、これらの権限を提供します。

  • ターゲットプロジェクトには、定義されたフローの下流で生成されたものは含まれません。前の例では、「売上変動レポート」AnswerSetがプロジェクトを使用した場合は、プロジェクトがフローに含まれません。ターゲットプロジェクトが常にフローのエンドポイントとなります。

プロジェクトフローを設定する

プロジェクトフローを作成するには:

  1. ターゲットプロジェクト、つまり最終状態のAnswerSetを生成するプロジェクトを開いてください。

  2. プロジェクトページの右上にあるプロジェクトフローの作成をクリックします。

  3. フローの名前とオプションの説明を入力し、作成をクリックします。

    インテリジェント自動化エンジンはフロー依存関係を計算し、APFを設定するプロジェクトフローページがAPFに表示されます。既存のプロジェクトフローを編集する際は、プロジェクトフローページにアクセスすることもできます。

すべてのフローに対して実行できる一般的なアクションについては、フローの管理を参照してください。

APFの設定

APFを設定するには、プロジェクトフローページでトリガーと通知を設定します。フローの入力および出力のデータセットの設定を調整することもできます。

プロジェクトフローページには、フロー設定用に3つのタブが表示されます。

一般タブ

一般タブは、プロジェクトフローの詳細を更新し、トリガーを追加するのに使用します。

一般タブでは、以下の操作ができます。

  • 作成したフローの 名前説明を更新します。
  • フローを実行するためのトリガーを指定します。トリガーは時間に基づくものと頻度に基づくものがあります。また、カスタムオプションを使用し、トリガー用の cron 式を入力することもできます。
  • 実行ステータスの通知先メールアドレスを入力します。各アドレスはコンマで区切ってください。

備考

フローが作成されると、一般タブにプロジェクトIDフローが表示されます。このIDは、REST APIコールのフローを識別し、フローのトラブルシューティングを行うために使用されます。

入力タブ

入力タブには、フローで使用するデータセットのリスト、フローの作成に使用するデータセットのバージョン、および各データセットが使用されるプロジェクトが表示されます。

入力タブでは以下の操作ができます。

  • フローが実行されるたびにデータセットが自動的に再インポートされるように指定します。

    デフォルトでは、すべてのプロジェクトは、ライブラリに保存されているデータセットの最新のバージョンを使用するように設定されています。ただし、新しいバージョンのデータセットが、その新バージョンがData Prepライブラリに手動でインポートされる前に、元のデータソースから利用可能となる可能性もあります。この場合、フローが実行されるたびに、元のデータソースから自動的に再インポートされるように、データセットを設定することができます。その後、この最新バージョンが常にライブラリに保存されます。この自動更新を有効にするには、Reimport dataset on run(実行時にデータセットを再インポート)をクリックします。オプションが有効にされている場合、再インポートオプションの設定ボタンも表示されます。このボタンは、データソースのパスの変更、クエリの実行、エクスポート解析オプションの入力を行うことができるライブラリのインポートペインを開きます。これらのオプションは、データセットとともにライブラリに保存されます。オプションの設定は、現在の設定を変更したい場合にだけ行う必要があります。

  • プロジェクトに使用するデータセットのバージョンを設定します。

    デフォルトでは、すべてのプロジェクトは、ライブラリに保存されいるデータセットの最新バージョンを使用するように設定されてます。ただし、このデフォルト動作を変更しようとする場合、データセットをプロジェクト内で使用する場合のオプション列の編集をクリックすることによって変更できます。

    • 特定バージョンに固定:データセットは、プロジェクトが現在使用している正確なバージョンを指定し続けます。

    • 列が変更されている場合は失敗する:ライブラリから入ってくる最新バージョンのレイアウト(スキーマ)が異なる場合は、プロジェクトへのデータセットのインポートが失敗します。例えば、新しい列が追加された場合、プロジェクトのステップで使用されていない列が削除されない場合、列タイプが変更された場合、列の順序が変更された場合などです。

  • 複数のプロジェクトがフローの入力として同じデータセットを使用している場合、これは、プロジェクトの列に記述されます。

    データセットを使用するすべてのプロジェクトを表示し、オプションで、プロジェクトごとに使用するデータセットの異なるバージョンを設定するには、すべてのプロジェクトを表示をクリックします。例えば、あるプロジェクトがライブラリの最新バージョンのデータセットを使用し、その一方で、別のプロジェクトが、関連するバージョンのプロジェクトに現在保存されている、データセットの正確なバージョンを使用するように指定できます。

備考

データセット列のデータセット名にカーソルを合わせると、データセット入力のメタデータセット統計が表示されます。データセットのバージョン、作成の日付、ライブラリにデータセットを追加したユーザー、および列と行の数がポップアップウインドウに表示されます。

出力タブ

出力タブは、フローから公開されているすべての出力 AnswerSet のリストを表示します。

Data Prepプロジェクトから公開ポイントを作成するには、公開するレンズが常に必要なので、すべての出力はレンズレベルで設定されます。

フローに複数のレンズがあるプロジェクトが含まれる場合があります。出力AnswerSetを生成するために、これらすべてのレンズが必要なわけではありません。デフォルトでは、必要なレンズだけが ライブラリ内に保存されたAnswerSet を自動的に公開します。フローに必要とされていない場合でも AnswerSetsを公開したい場合、出力タブで有効にできます。

備考

出力AnswerSetを生成し、フローに必要であるレンズは、決して無効化できません。

必須でないAnswerSetの公開オプションを調整することに加えて、任意のレンズの出力AnswerSetを、例えばデータベースやクラウドストレージシステムなどの外部データソースに公開することができます。Data Prepライブラリに加えて公開場所を指定するには、レンズを設定をクリックして、エクスポートペインを開きます。

出力タブで、次の操作を実行できます。

  • ブリッジ機能を果たさないレンズを無効化して、AnswerSetをライブラリに公開させないようにします。

    無効化するにはレンズに隣接するスライダーをクリックしてください。

  • 公開済みの AnswerSet を、(デフォルトのライブラリ設定に加えて)データソースにエクスポートします。

    レンズに対してレンズの設定をクリックします。エクスポートペインがページの下部に開きます。デフォルトでは、Data Prepは、Data PrepライブラリにAnswerSetsを公開します。外部データソースに公開するには、レンズのエクスポートフィールドのドロップダウンメニューをクリックし、ライブラリとエクスポートを選択します。その後、そのAnswerSetに関する出力場所の詳細と、エクスポート解析オプションを指定できます。

フローを監視する

APFでは、フローのステータスを監視できます。フローの出力を生成するための主要な構成要素は、スナップショット、実行、および操作です。次の図は、これらの構成要素がフローを監視する方法を示しています。詳細については、次のセクションを参照してください。

プロジェクトフローページ

プロジェクトフローページには、表示および編集する権限があるフロー、およびそれぞれに関して最新の実行の現在のステータスが表示されます。このページでは、次のことができます:

  • フローの構成の詳細を編集します。編集をクリックすると、APF 構成インターフェースが開き、ここで構成に関する調整を行うことができます。APFの設定を参照してください。

  • 実行をクリックして、フローを手動で実行します。フローを手動で開始することは、新しいフロー、またはフローの設定変更を確かめる必要がある場合や時間に基づくトリガーが開始するのを待ちたくない場合に、特に役立ちます。

  • フローのスナップショットを表示します。すべてのスナップショットを表示をクリックして、[スナップショット] ペインを開きます。

  • その他のアクション > 権限をクリックして、このフローを他の人と共有できるように、権限の設定を更新します。これらの権限を表示できるのが、そのフローを作成したユーザー、または作成者がすべての権限を共有したユーザーのみであることに注意してください。

  • その他のアクション > 最新の結果を表示をクリックして、最新のフローに移動します。これは、フローが少なくとも一回実行されるまで表示されません。

スナップショットページ

スナップショットページには、フローのスナップショットが表示されます。 フローが実行されるたびに(フローの「実行」と呼ばれます)、スナップショットが作成され、実行の出力を作成するために使用される構成設定がキャプチャされます。フローの設定が変更(スケジュール、通知、入力、出力設定の変更など)されるまでは、このスナップショットで実行が継続します。その後、フローの新しいスナップショットが作成されます。新しいスナップショットは、変更された構成の設定で実行される実行をキャプチャします。スナップショットは、実行ごとにプロジェクトフローの正確な状態の監査を可能にします。

備考

データセットがライブラリの最新バージョンを使用するように設定されている場合、APFは新しいスナップショットを作成しません。データセットの設定オプションについては入力タブを参照してください。

このページでは、次のことができます:

  • 表示をクリックして、スナップショットのAPF設定の読み取り専用表示を開きます。
  • すべての実行を表示をクリックして、実行リストページを開きます。ここには、スナップショットの各実行の詳細が表示されます。

実行ページ

実行リストページでは、スナップショットの下の各実行ごとに、すべての詳細がキャプチャされます。実行を終了するために完了する必要があるその他の操作の数(依存関係AnswerSetの公開など)がページに表示されます。フローが実行されるたびに、新しい実行エントリーがこのページに表示されます。

実行に関連したAPF構成設定の読み取り専用表示を開くには、表示をクリックします。

備考

フローの作成に使用されたデータに変更がない場合(例えば、フローに使用されたすべてのデータセットが前回の実行時に使用されたものと全く同じバージョンである場合)、APFエンジンはリソースを節約し、新しいデータの入力が可能になるまでフローを再実行しません。

APF割り当てメーターは、使用状況を知らせるためにフローページの上部に表示されます。日次、週次、月次のいずれかにカーソルを合わせます。ツールチップは、現在の使用状況と制限の詳細を提供します。

割り当ては操作の数に基づいており、操作は次のように定義されます。

  • フローを生成するために個々のプロジェクトの実行が必要です。
  • フローの生成に必要なデータセットまたはAnswerSetのインポート(公開ではなく)。

すべての操作は最終的にフローの出力を生成します。フローの実行中に、フローのページの割り当てメーターを更新するためにブラウザの表示を更新してください。操作の数の割り当てを増やす必要がある場合は、 DataRobot Data Prep管理者またはDataRobotカスタマーサクセスに連絡してください。

フローの管理

プロジェクトフローページの右上にあるフロー管理用のツールにアクセスします。

保存されたフローは、次の方法で管理することができます。

フローに対応するビジュアル グラフの生成

グラフボタンをクリックすると、新しいブラウザーウィンドウ内でAPFグラフが生成されます。 このグラフは、データセットを表示するほか、フローの最終出力AnswerSetを生成するために使用される個別プロジェクトに対してこれらのデータセットがどのように流入するかを示します。

フロー内のデータセットまたはプロジェクトにカーソルを合わせると、対応するダウンストリーム系統(ビンク)とアップストリーム依存関係(青)が表示されます。

たとえば、2016年3月トランザクションのデータセットにカーソルを合わせると、次のように表示されます。

フローの中間プロジェクトにカーソルを合わせると(この例では顧客忠実度 - 女性メンバーです)上流の依存関係はブルーで表示し、下流の系統はピンクで表示されます。

両方の例において、データセットとプロジェクトが選択したフローの部分に関与していない場合、グラフ内でグレ-アウトされていることがわかります。

一部のフローのグラフ内に点線が表示されることもあります。点線は、フロー内のプロジェクトからAnswerSetが公開され、その後、その AnswerSet が同じフロー内の同じプロジェクトまたは別のプロジェクトによって使用されたことを示します。この状況をループ入力と呼び、点線で表現されます。

フローを手動で実行

時には、スケジュールした開始時刻を待つ必要なしで、フローの実行を手動で開始しようと考えることがあります。これは、アクションドロップダウンメニューから実行できます。今すぐ実行をクリックします。

フローの削除

保存されたフローを保持しない場合は削除できます。アクション > 削除をクリックします。選択を確認するように求められます。このフローを削除した結果、このフローを実行した結果としてライブラリに公開されたどの AnswerSetも削除されないことに注意してください。

最新プロジェクトバージョンでフローを更新する

プロジェクトでアクション(ステップの追加、ステップの削除、ステップの再配置など)が実行されるたびに、プロジェクトの新しいバージョンが作成されます。各バージョンは、データ準備作業中にユーザーがデータに対して実施した変更の監査証跡を提供します。プロジェクトフローを作成する場合、フローは、そのフローの作成時点で特定のプロジェクトバージョンに常時固定されます。しかし、フローがすべてのプロジェクトの最新バージョンを使用するように更新することもできます。これは、アクションドロップダウンメニューから実行できます。プロジェクトのバージョンを更新を選択すると、選択の確認を求めるプロンプトが表示されます。

既存のAPFを上書きすることも、新しいAPFを作成することも選択できます。新しいAPFを作成することにした場合、すべてのトリガーは新しいAPFにコピーされますが、デフォルトで無効化されています。

備考

既存のAPFを更新する機能を有効化する必要があります。すべてのプロジェクトバージョンの更新ウィンドウが表示されない場合は、Data Prepシステム管理者に連絡してこの機能を有効にする必要があります。この機能を有効にしていない場合、注意メッセージが表示され、プロジェクトに重要な変更がなかった場合(レンズのプロジェクトデータセットに変更がない場合など)にのみバージョンを更新できます。

フローのすべてのプロジェクトではなく、特定のプロジェクトのバージョンを更新するには、出力タブで、バージョンを更新するプロジェクトにカーソルを合わせてから、右側の列でプロジェクトバージョンの更新をクリックします。

APFの用語

以下は、APFに対応する固有の用語です。

用語 定義
操作 データセットのインポートあるいはプロジェクトの実行。データセットのインポート操作は、データソースを介してデータセットの再インポートを実行します。プロジェクトを実行する操作は、ライブラリへのAnswerSetの公開や、AnswerSetのエクスポートなど、フローに必要なその他すべてのタスクに対応します。
フロー 1 つの単位として実行できる一連のプロジェクトを意味します。1 つのフローに対して、頻度をベースとする 1 つ以上のスケジュールを関連付けることができ、その結果、1 つのフローを繰り返し実行する ことが可能になります。
入力 フローの実行に必要な、ライブラリから取得されるデータセットです。
出力 フローを実行して生成されたライブラリに書き込まれる複数の AnswerSet を意味します。
実行 ターゲットプロジェクトにとって必要である、各プロジェクトの実行です。実行は、アップストリームの依存関係プロジェクトからすべての段階を実行し、結果のAnswerSetをライブラリに書き込みます。
スナップショット フローの実行ごとにキャプチャされる構成の設定。Data Prepの管理者は、アプリケーションでこの特微量を有効にする必要があります。
ターゲット プロジェクト フローが作成される元となるData Prepプロジェクト。フローを作成すると、すべてのアップストリームの依存性はAPF エンジンによって自動的に計算されます。

更新しました February 22, 2022
Back to top