サンプルデータセット¶
場合によっては、すべてのデータをData Prepプロジェクトに取り込む前に、データセットのサンプリングを行うと便利です。大規模なデータセットでは、これによって初期の探索と検出が簡単になることがあります。サンプリングツールは柔軟性が高く、フィルターを使用してデータ内の特定の行セットに絞り込んだ後で、その結果からサンプリングすることもできます。
サンプリングツールの操作¶
サンプリングツールにアクセスするには、プロジェクトツールバーでサンプリングバーをクリックします。
すべてのデータをプロジェクトに取込む前に、初期発見のために非常に大きなデータセットをサンプリングすることを推奨します。サンプリングツールは柔軟性が高く、フィルターを使用してデータ内の特定の行セットに絞り込んだ後で、その結果からサンプリングすることもできます。
備考
データをサンプリングすることを選択した場合、そのサンプルのパターン、ルックアップの組み合わせ、および集計のみが表示されます。探索が完了したら、ステップペインでサンプリングをミュートまたは削除することで、サンプリング操作を簡単に削除できます。
サンプリング方法¶
サンプリングは、データセットのパーセンテージまたはデータセット内の特定の行数をベースにすることができます。
-
パーセンテージベースのサンプリング:指定したパーセンテージに基づいて、データセット全体でランダムで繰り返し可能なサンプルを実行します。サンプルの生成に使用されるデータセット内の列を指定することもできます。この場合、列のデータのみがサンプルの決定に使用されます。
-
行ベースのサンプリング:指定した行数に基づいて、データセット全体でランダムで繰り返し可能なサンプルを実行します。指定する行数は、データセット内の行総数で除算されます。データのサブセットサンプルが返されます。プロジェクトのデータ準備ステップとして行ベースのサンプリングを実行している場合、指定した行数は、前のステップのデータセット内の行総数で除算されます。
どちらのタイプのサンプリングでも、「サンプリングシード」番号を保存して、サンプリングしたデータのサブセットを確実に繰り返すことができます。データの別のサブセットサンプルを生成するには、緑の再シード アイコンをクリックすることもできます。最適なサンプルを得るには、データセットが10万行を超える必要があります。
パーセンテージを使用したサンプル¶
データセットのパーセンテージをベースにサンプルを作成するには、次の手順に従います:
-
ツールバーから、列をクリックします。
使用サンプルペインが表示されます。
-
まだ選択されていない場合、パーセンテージをクリックします。
-
オプションで列を選択します。
サンプリングパーセンテージは、選択した列に基づいています
-
By Percentageフィールドに、サンプルに含めるデータセットのパーセンテージを入力します。
-
必要に応じて緑色の再シード
アイコンをクリックします。
-
保存をクリックします。
行を使用したサンプル¶
データセットのパーセンテージをベースにサンプルを作成するには、次の手順に従います:
-
ツールバーから、列をクリックします。
使用サンプルペインが表示されます。
-
まだ選択されていない場合、パーセンテージをクリックします。
-
オプションで列を選択します。
サンプリングパーセンテージは、選択した列に基づいています
-
By Percentageフィールドに、サンプルに含めるデータセットのパーセンテージを入力します。
-
必要に応じて緑色の再シード
アイコンをクリックします。
-
保存をクリックします。