データの整形¶
Data Prepでは次のことを可能にするシェイプツールを用意しています。
整形ツールの操作¶
シェイプツールにアクセスするには、プロジェクトのツールバーでシェイプをクリックします。
シェイプウィンドウの要素の概要を示します。
要素 | 説明 | |
---|---|---|
![]() |
シェイプツール | シェイプをクリックしてシェイプウィンドウにアクセスします。 |
![]() |
シェイプウィンドウ | シェイプウィンドウでシェイプツールを選択します: |
重複除去¶
重複除去機能は、データ内から行単位で互いに正確に一致する値を検索し、これらを単一の行として出力して、重複する値を除去します。
重複除去ウィンドウでは、列フィールドで列の追加および削除を行うことができます。このフィールドに追加されたすべての列が、重複除去プロセスに含まれます。列を追加すると、データプレビューに表示されます。
備考
重複除去プロセスおよび結果出力に含められるのは、列フィールドに追加された列だけです。選択しなかった列は重複除去プロセス内で考慮されず、プロセスの完了時にデータから削除されます。重複除去機能の各パラメーターの設定を終えたら、保存ボタンをクリックし、プロセスを確定してプロジェクトにコミットします。
重複除去機能では、ファジーオプションを使用することもできます。ファジー重複除去を有効にすると、完全一致の代替手段として使用できます。
ファジー重複除去では、ファジーアルゴリズムを使用して一致行が検出されます。つまり、完全一致ではなく類似した値同士がグループ化され、重複除去されます。以下に例を示します。
ファジー重複除去では、空白値が含まれている場合でも、類似した項目がグループ化されます。
グループ化¶
グループ化機能を使用すると、データセット内の任意の既存列に対し、さまざまな種類の集計関数を実行できます。グループ化を選択すると、データプレビューの上にウィンドウが表示されます。このウィンドウでは、グループ化プロセスに含める列、集計関数の実行対象とする列、使用する集計関数、新規作成する集計列の名前を指定できます。
ユーザーが選択したデータはデータプレビューで青色に強調表示されるので、データがどのように影響されるかを確認できます。重要な点は、グループ化機能を実行すると、列(集計)フィールドに含まれた列のみがデータ内に残ることです。ここに含まれている列は、グループ化を行う際、重複行を識別するために使用されます。
使用可能な集計関数のリストについては、グループ化集計関数を参照してください。
これらの操作は、一致する行をデータセットから検索し、これらを1つの行として結合するため、「集計」と呼ばれます。一致する行とは、列単位で検査したとき(参照列を除く)同じ値を持つ行として定義されます。このカラム単位の検査では、参照カラムは除外されます。 参照カラムの値を集計関数に提供することで、参照カラムの値を単一行の結果として生成するためです。
転置¶
転置機能を使用すると、行と列を入れ替えることができます。いわば、データを90度回転させることが可能です。
転置機能では、任意の1列を選択して、この列値によって新しい列見出しを作成します。選択した列の値が新規列見出しとなり、他のすべての列見出しは行見出しとして移動されます(転置プロセス中にユーザーが削除しない限り)。この転置プロセスにおいて、特定の見出しセットと一致する値が複数存在する場合は、Data Prepにより、元のデータセット内の最後の有効値が表示されます。
ここに、売上を示す単純なデータセットがあります。
シェイプツールをクリックしたら、シェイプウィンドウの上部にある転置を選択します。
列見出しとして、1つの列を選択できます(ここで選択した列の値が新しい列見出しになります)。また、新たな転置データに行として含める列を、必要な数だけ選択します。シェイプウィンドウの下部にあるグリッドには、転置プロセスに対して選択したオプションに基づき、データがどのように出力されるかを示すプレビューが表示されます。
転置の対象として選択した列によっては、結果的に全データが完全には含まれないことがあるので、注意が必要です。ここに示した例で、「Item Sold」の値が「Baseball」となるインスタンスが複数存在することに注目してください。「Item Sold」を新しい列として転置を行うと、Data Prepでは、データセット内の最後の値だけが表示されます(下図参照)。
転置プロセスの各オプションを適切に選択したら、画面右上の保存ボタンをクリックします。 これで、プロセスが確定し、プロジェクトにコミットされます。
ピボット¶
ピボットは転置と同じように、列見出しを行見出しに置換します。ただし、ピボット機能では、選択した列に集計関数を実行して、その結果をピボットテーブル内のデータ本体として表示できます。さらに、転置機能とは異なり、ピボットでは、複数の見出しを列見出しとして選択できます。
シェイプツールを開き、ピボットを選択すると、ピボットオプションが表示されます。列見出しとして使用する列、作成するピボットテーブルに行として含める列をそれぞれ選択できます。最後に、ピボットテーブルのデータ本体として作成する列を選択し、この列に対して実行する集計関数の種類を指定できます。+ボタンをクリックすることで、複数の集計関数をピボットテーブルに適用できます。
選択した集計関数が、選択した列に対して実行され、選択した列見出しおよび行見出しの交差する位置に基づく合計が表示されます。使用可能な集計関数のリストについては、グループ化集計関数を参照してください。
シェイプウィンドウ下部に表示されるデータは、選択したオプションに基づいて生成されるピボットテーブルのプレビューであり、よく確認する必要があります。
転置プロセスの各オプションを適切に選択したら、画面右上の保存ボタンをクリックします。 これで、プロセスが確定し、プロジェクトにコミットされます。
ピボット解除¶
ピボット解除機能は、各列のデータを2つの列として積み上げる(スタックする)、非常に強力な機能です。2つの列のうち、1番目の列には、元のデータを保持していた各列見出しが表示され、2番目の列には、この列の値が表示されます。このような機能を使用した経験のないユーザーにとっては、ピボット解除の実行によって実際に何が行われるのか、正確に理解することは難しいかもしれません。
ピボット解除ウィンドウでは、いくつものオプションを設定します。
-
行ラベル: データ内に固定する列を選択します。これらの列は、ピボット解除プロセスではスタックされません。
-
値:ピボット解除プロセスにおいて、データ内のどの列を含める(スタックする)かを選択します。
-
列ラベル:値フィールドで選択された列のラベルを含む、新しい列の名前を指定します。
-
値ラベル:値フィールドで選択された列の値を含む、新しい列の名前を指定します。
上の例では、ピボット解除機能の実行により、値フィールドで選択された列が、2 つの新しい列としてスタックされている状態がプレビュー表示されています。次の図は、具体的な動作をわかりやすく示したものです。
ピボット解除プロセスの実行により、それぞれの値がどこから抽出され、どこに移動されているかを理解しやすくするため、各列は色分けして表示されています。
この例では、LOCATION列が行ラベルの唯一の値として選択されています。ピボット解除プロセスにより、列値がスタックされるため、それぞれの場所に対して重複行が生成されています。このしくみにより、値フィールドで選択された列の個々の値に対し、それぞれの行が生成されます。ピボット解除機能を実行することで、すべての売上高が単一列に格納されています。この形式に対してグループ化機能を実行すると、データに対し、普段は気付かない洞察が得られる可能性もあり、たいへん便利です。