Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

サンプルデータセット

場合によっては、すべてのデータをData Prepプロジェクトに取り込む前に、データセットのサンプリングを行うと便利です。大規模なデータセットでは、これによって初期の探索と検出が簡単になることがあります。サンプリングツールは柔軟性が高く、フィルターを使用してデータ内の特定の行セットに絞り込んだ後で、その結果からサンプリングすることもできます。

サンプリングツールの操作

サンプリングツールにアクセスするには、プロジェクトツールバーでサンプリングバーをクリックします。

すべてのデータをプロジェクトに取込む前に、初期発見のために非常に大きなデータセットをサンプリングすることを推奨します。サンプリングツールは柔軟性が高く、フィルターを使用してデータ内の特定の行セットに絞り込んだ後で、その結果からサンプリングすることもできます。

備考

データをサンプリングすることを選択した場合、そのサンプルのパターン、ルックアップの組み合わせ、および集計のみが表示されます。探索が完了したら、ステップペインでサンプリングをミュートまたは削除することで、サンプリング操作を簡単に削除できます。

サンプリング方法

サンプリングは、データセットのパーセンテージまたはデータセット内の特定の行数をベースにすることができます。

  • パーセンテージベースのサンプリング:指定したパーセンテージに基づいて、データセット全体でランダムで繰り返し可能なサンプルを実行します。サンプルの生成に使用されるデータセット内の列を指定することもできます。この場合、列のデータのみがサンプルの決定に使用されます。

  • 行ベースのサンプリング:指定した行数に基づいて、データセット全体でランダムで繰り返し可能なサンプルを実行します。指定する行数は、データセット内の行総数で除算されます。データのサブセットサンプルが返されます。プロジェクトのデータ準備ステップとして行ベースのサンプリングを実行している場合、指定した行数は、前のステップのデータセット内の行総数で除算されます。

どちらのタイプのサンプリングでも、「サンプリングシード」番号を保存して、サンプリングしたデータのサブセットを確実に繰り返すことができます。データの別のサブセットサンプルを生成するには、緑の再シード アイコンをクリックすることもできます。最適なサンプルを得るには、データセットが10万行を超える必要があります。

パーセンテージを使用したサンプル

データセットのパーセンテージをベースにサンプルを作成するには、次の手順に従います:

  1. ツールバーから、をクリックします。

    使用サンプルペインが表示されます。

  2. まだ選択されていない場合、パーセンテージをクリックします。

  3. オプションで列を選択します。

    サンプリングパーセンテージは、選択した列に基づいています

  4. By Percentageフィールドに、サンプルに含めるデータセットのパーセンテージを入力します。

  5. 必要に応じて緑色の再シードアイコンをクリックします。

  6. 保存をクリックします。

行を使用したサンプル

データセットのパーセンテージをベースにサンプルを作成するには、次の手順に従います:

  1. ツールバーから、をクリックします。

    使用サンプルペインが表示されます。

  2. まだ選択されていない場合、パーセンテージをクリックします。

  3. オプションで列を選択します。

    サンプリングパーセンテージは、選択した列に基づいています

  4. By Percentageフィールドに、サンプルに含めるデータセットのパーセンテージを入力します。

  5. 必要に応じて緑色の再シードアイコンをクリックします。

  6. 保存をクリックします。


更新しました February 22, 2022
Back to top