Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

列の分割

Data Prepには、データの準備中に列を分割する機能があります。列の分割とは、1つの列の値を、同じ行の1つまたは複数の新しい列に分散させることです。列の分離は列を分離するための文字列を入力するか、文字の長さを入力するいずれかによって動作します。

一致

列の分離に使用する区切り文字フィールドに1つまたは複数の文字を入力します。入力された文字は、パターンとして認識され、文字が一致する部分ごとに値を分離します。指定される文字は、新たに生成される結果の列には含まれません。分離に使われた文字は、分離された新しい列からは完全に除外されます。

備考

テキストセパレータの値は、大文字と小文字を区別します。

最小リンクと最大リンクを使用すると、分離操作用に選択した区切り文字と、その区切り文字がこの列のセル全体に出現する回数に基づいて、分割後に作成する新しいカラムの数をすばやく選択できます。また、カスタムリンクでは、生成する列の数を正確に指定できます。各フィールドの近くにある [+] ボタンと [-] ボタンをクリックして、新しいカラムフィールドを手動で追加または削除することもできます。

分割を右から左に選択するオプションもあります。カラムの分離関数は、デフォルトの設定では、ユーザーが入力したセパレータを使用して、左から右に分析します。右から左にのオプションでは、列のテキストを右から解析することができます。これは特に、テキスト文字列を分離する場合に役立ちます。 たとえば、ファイル名をディレクトリ パスから切り離すことができます。この場合、スラッシュ「/」を区切り文字として指定し、右から左にオプションを選択します。

Length

長さフィールドには、カンマで区切られた1つ以上の数字が必要です。長さフィールドは、新たに生成する各列の文字の数を決定するために使用されます。このように、フィールドに「2,3,2」という値を入力すると、最初の2文字で1番目の列が作成され、その後の3文字で2番目の列が作成されます。そして、元の列の中にある次の2文字で3番目の列が作成されます。

区切り文字での分離とは異なり、この分離タイプでは、列の途中で文字が除外されることはありません。ただし、不明な(残っている)文字が最後の列にまとめて配置されるのではなく、新しい列から完全に除外されます。思わず、カラムを切り捨てることを回避するために、最後の数字は残っている列の長さを考慮するのに十分な大きさで指定することをお勧めします。

ただし、この方法では、この値が利用可能な文字値の長さよりも大きいことを考慮した「空白」バッファは作成されません。このように大きな値を使用して分離すると、新しく生成された最後のカラムに任意の文字がすべて含まれているものと考えることができます。長さパラメータで指定された余分なスペースが列の文字数を超えた場合は、単に無視されます。

正規表現(Regex)

正規表現(Regex)に慣れている場合は、このオプションを使用して、分離を強制したい位置の文字列を特定する検索パターンを定義できます。次の画面は、正規表現を使用して、文字列のアルファベット文字で分離して、新しい 2 つの数値型カラムを作成する例を示します。分離の結果、2 つの数値型カラムが作成されます。

キャプチャモードオプションを使用すると、Regexパターンに一致する文字列を抽出できます。

次の例では、Regex のキャプチャモードを使用して、文字列内の 2 番目の数字のセットだけを取り出しています。分離の結果、1 つの数値型カラムが作成されます。


更新しました February 22, 2022
Back to top