Skip to content

ライブサンプルとのやり取り

ラングリングをクリックすると、DataRobotは10000行の均一なランダムサンプルを取得し、そのサンプルについて探索的データインサイトを計算します。これはすべてデータソースに接続している間に行われます。 次に、データセット全体に適用する操作のレシピを作成します。変換は最初にライブサンプルに適用され、正しく行われているかを確認します。 レシピは、パブリッシュできる状態になるとデータソースにプッシュダウンされ、そこで実行されて出力データセットがマテリアライズされます。

ユースケースの次の領域からデータラングラーを起動できます。

ラングリング設定の変更

レシピでは、設定を変更して、後で使用できるようにサマリー情報をよりわかりやすくしたり、ライブプレビューに含まれる行数を変更したりできます。

レシピメタデータの編集

デフォルトでは、DataRobotはソースデータに基づいて各ラングリングレシピに名前と説明を割り当てますが、この情報を変更して、特定のユースケースに適用しやすくすることができます。

レシピのメタデータを編集するには、右側の情報タイルをクリックします。

次に、編集したいフィールド(タイトルまたは説明)をクリックします。 フィールドを編集し、完了したら、次の操作を行うことができます。

  • チェックマークまたはフィールドの外側をクリックして、変更内容を保存します。
  • Xをクリックして、変更を取り消します。

ライブサンプルの設定

デフォルトでは、DataRobotはライブサンプルで10000行をランダムに取得しますが、この数とサンプリング方法は、ラングリング設定で変更できます。 取得する行が多いほど、ライブサンプルのレンダリングに時間がかかることに注意してください。

ライブサンプルを設定するには:

  1. 右側のパネルで設定をクリックし、プレビューサンプルを開きます。

  2. サンプリング方法を選択します。 ドロップダウンを使用して、ランダム先頭のN行、またはサンプリングなしを選択します。時系列データのラングリングでは、日付/時刻を選択します。

  3. ソースデータから取得する行数を指定します。 ライブサンプルに含める行数(10000未満)を入力して、再サンプリングをクリックします。 ライブサンプルが更新され、指定された行数が表示されます。

ライブサンプルを分析

データのラングリング中、DataRobotはライブサンプルに対して探索的データ解析を実行して、表レベルおよび列レベルの サマリー統計視覚化を生成します。これは、データセットのプロファイリングや、操作を適用する際のデータ品質の問題の認識に役立ちます。 ライブサンプルの操作の詳細は、 探索的データインサイトのセクションを参照してください。

サンプリング方法としてサンプリングなしを選択した場合、ラングリングセッション中にデータセット全体が処理されるため、プレビューの生成が大幅に遅くなる可能性があることに注意してください。

ラングリングセッション中に多数の行を処理することを選択した場合、ページの下部に合計行数が表示されますが、インサイトは最初の10万行に基づいてのみ計算されます。 デカルト結合や、内部結合または左結合での一対多/多対多結合条件などの操作だけでなく、サンプリングを無効にすると、プレビュー結果が大きくなる可能性があります。

ライブサンプルの高速処理

ライブサンプルの取得とレンダリングにかかる時間を短縮するには、インサイトを表示の横にあるトグルを使用して、特徴量分布チャートを非表示にします。

データアセットタイルでのライブサンプルと探索的データインサイトの比較

両方のページには同様のインサイトがありますが、ライブサンプルに表示される行数を指定でき、これはレシピに変換を追加するたびに更新されます。

続けて読む

このページで説明されているトピックの詳細については、以下を参照してください。