列の値の変更¶
Data Prepでは、列メニューの変更操作を使用してデータ値を変更できます。この例は、テキストを大文字に変更する"Medical Specialty"列の変更操作を示しています。
変更いずれかの操作を使用して1つ以上の列を選択し、それらの列のデータを次のように変更します。
- 各語の最初の文字のみ大文字
- 小文字
- 大文字
- 数値
- テキスト
- 日付
- アンエスケープ HTML
- 空白
- カスタム値
- 列のセルから前後の空白を削除する
- 連続する複数の空白を1つの空白にする
単一の列の値を変更する¶
1つの列でテキストを検索して置換するには:
-
値を変更する列を見つけます。
-
列メニューアイコン
にカーソルを合わせて、列メニューにアクセスします。変更にカーソルを合わせて、必要な変更を選択します。
Data Prepは、変更を反映する元の列のコピーを生成します。次に例を示します。
-
上部にある保存をクリックし 変更を受け入れます。
複数の列の値を変更する¶
データセット全体または特定の列セット全体で値の変更を実行する必要がある場合は、高度な 変更ペインを使用します。高度な機能が役立ついくつかの例を次に示します。
- データセット全体にわたって"incorporated"と"Inc"の両方が存在していて、データセット全体が"Inc"値のみとなるように標準化する場合。データセット全体を標準化して、"Inc"値のみになるようにします。
- データセットはどこにでも「組み込まれて」おり、ほとんどの場合それは精度の高いです。ただし、データセット内の_特定の列_の値を"Inc"に変更する必要があります。
- 2つのデータセットをプロジェクトに取り込みました。1つは"NA"とし、もう1つは適用できない値を表すためにブランクを使用します。すべての"NA"値をブランクに変更したいとします。
複数の列にわたって検索して置換するには:
-
列のメニューアイコン
にカーソルを合わせて、検索+置換をクリックします。
-
検索+置換ペインに表示される列名をクリックします。
-
高度な検索+置換ペインで、検索と置換の操作に含める各列の横にあるチェックボックスをクリックします。
複数の列にわたる検索と置換の残りの手順は、単一の列を検索して置換する手順と同じです。検索と置換を参照してください。
名前または基準による値の変更¶
高度な検索+置換ペインでは、名前または基準のいずれかで複数の列を選択できます。
名前による値の変更:¶
名前で選択して置換は、選択した特定のカラム_のみに_変更が適用されます。
名前に基づいて列を選択するには:
- 選択する列の隣にあるチェックボックスをクリックします。
- 最上部のチェックボックスをクリックすると、すべての列が選択されます。
- パネル上部の列フィルターと型フィルターを使用すると、操作対象として選択する列を迅速にフィルタリングできます。
- 検索機能を使用して、列を名前で検索します。
基準による値の変更:¶
基準で検索して置換すると、指定した基準を満たすすべての列に変更が適用されます。
たとえば、データセットに文字列型の列があり、文字列型の列に対して置換操作を指定した場合、データセット内にあるこの型の既存の列と、このステップの前にデータセットに追加された新しい文字列型の列のすべてが動的に置換されます。
基準に基づいて列を選択するには:
- 必要に応じて列のデータ型(ブール値、日時、数値、文字列)を指定します。
- 必要に応じて列名のパターン(次の値で始まる、次の値を含む、次の値に等しい、次の値で終わる)を指定します。
ヘッダーのメッセージが更新され、その基準に基づいて選択した列の数が表示されます。これより前のステップに新しいデータが取り込まれ、基準を満たした列が追加または削除された場合は、選択した列の数が増加または減少することがあります。
備考
置換操作を保存する前に名前オプションと基準オプションを切り替えた場合には、Data Prepは選択内容を記憶します。このとき、直前の選択を復元のためのリンクをクリックすると、最初の選択方法に戻ります。
例:数値への変更¶
この列操作は、テキスト文字列として保存されたすべての数字を数値に変換します。これにより、その列内の値に対して数学演算を実行できるようになります。 数字がテキストとして保存されたままの状態では、このようなアクションは無効と見なされます。
文字列として保存されている数字は、左詰めの黒色のテキストとしてセルに表示されます。 数値として保存されている数字は、右詰めの緑色で表示されます。
数値に変換できないセルに対してこの操作を適用しても、効果はありません。1つの列内にテキスト行と数字の行が含まれる場合は、変換可能な行の値だけが変換されます。
変換可能に見える値が正しく変換されない場合は、セル内に数字以外の文字が含まれている可能性があります。
変換を妨げる文字の例を以下に示します。
-
前後の空白。「数値に変換」の前に「前後の空白を削除」列操作を実行すると、これらの空白を削除できます。
「前後の空白を削除」機能は、すべての行について、テキスト文字列の先頭と末尾に空白がないかどうかを調べます。見つかった空白は削除され、値だけがセルに残ります。
-
中間文字(カンマ、空白など)数値の列を適切に作成するには、事前に列の分割などの操作を実行したり、REGEXを使用する計算列の使用が必要になったりする場合があります。
備考
数値のセルでは、単一のピリオド(".")は小数点として解釈されます。この特殊文字の場合は、数字型への型変換に影響はありません。