Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

データのフィルタリング

Data Filtergram™ は、データを変換するフィルターの力とデータを視覚化するヒストグラムの機能を組み合わせたツールです。Filtergramsを使用することで、変換前、変換中、および変換後に毎回データを視覚化することができます。フィルターグラムを使用して、次のことができます。

  • データの探索。この方法でフィルターを使用する場合、フィルタリングされた選択をプレビュー画面に表示することができます。 選択した内容は、プロジェクトのステップに保存されません。むしろ、データを迅速に探索することができます。探索を終了したら、フィルターを削除し、プロジェクトで変換を継続することができます。

  • 行の削除.データの準備作業に行の削除が含まれる場合、まずフィルターを使用し、削除したい行を特定する必要があります。

  • 特定の行セットに含まれるデータのみを変更します。この場合、フィルターを使用して変更したい行を分割します。次に、これらの行だけに変更を適用することができます。例えば、名前のある列があり、「Anna」のすべてのインスタンスを「Anna」に変更したい場合、列をフィルタリングし、「Anna」の値のみを表示します。次に、カスタム値に変更する列操作を適用して "Anna"を "Ann" に変換します。

  • 特定の行セットだけを公開します。この場合、フィルターを使用して、公開したい行を分割します。次に、レンズを追加して公開ポイントを作成することができます。

Data Filtergram の作成

データフィルターグラムを作成する場合:

  1. フィルターしたい列を見つけます。

  2. 列メニューのアイコンにカーソルを合わせ、フィルター値をクリックします。

複数の列に対して Filtergram を開くと、プレビュー画面でこれらのフィルターの結果をプレビューすることができます。

各タイプの列データに対応するフィルターグラムには次の5つのタイプがあります:

以下のセクションでは、各タイプのフィルターを使用する方法について説明します。

テキスト Filtergram

[テキスト フィルターグラム] ペインには、データセットに表示される、個別のテキスト値のリストが表示されます。左から右へ伸びるバーは、それぞれの値の相対的な出現回数のヒストグラムを示します。ユニーク数の総数がペインの左下に表示されます。リストから、データセットに動的に表示する値を選択できます。

テキスト フィルタグラム で実行できるアクションについては、テキスト フィルタグラム の操作を参照してください。

a. 現在選択中(左上): リストから選択する場合、ボタンのラベルには選択した数が表示されます。ボタンをクリックして、選択されたすべての値を一覧表示する新しいペインを開きます。このペインから、引き続きデータセットに表示するテキスト値を絞り込むことができます。このペインから実行できるアクションは、テキスト フィルタグラム の操作セクションで説明しています。

b. リスト順序の並べ替え: デフォルトでは、テキスト値のリストは出現数の多い順に並んでいます。順序を逆にするには、右上隅の出現数の列の上にある三角形をクリックします。リストの上にある三角形をクリックしてアルファベット順に並べ替えることもできます。三角形のオレンジ色は、データセットに数字とアルファベットのどちらの並び順が、現在適用されているかを表しています。

c. カラーコード付きフィルターバー: Filtergram ペインにマウスを移動させると、以下のボタンが表示されます:

  • タイプ:このボタンにマウスを置くと、「データセット内のテキスト型の行の総数」に対する「現在選択されているテキスト型の行の数」の比率が表示されます。リストで何も選択されていない場合は、「データセット内の行の総数」に対する「テキスト型の行の総数」の比率が表示されます。このボタンをクリックすると、データセットでこれらのテキスト値が非表示になります。列にブランク、エラー、またはその他のテキスト以外の値が含まれており、これらのデータタイプのみを表示する場合にこれは役立ちます。

  • その他:列にテキスト以外の値がある場合(数値など)、このボタンが表示されます。このボタンにマウスを置くと、「データセット内の非テキスト値を持つ行の総数」に対する「現在選択されている非テキスト値を持つ行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「非テキスト値の行の総数」の比率が表示されます。その他をクリックするとオフになり、現在のデータセットビューから他の値を非表示にします。

  • 空白:列内に空白がある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内の空白行の総数」に対する「現在選択されている空白行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「空白行の総数」の比率が表示されます。ブランクをクリックするとオフになり、現在のデータセットビューからブランクセルを非表示にします。

  • エラー:列内にエラーがある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内のエラーのある行の総数」に対する「現在選択されているセルエラーのある行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「セルエラーのある行の総数」の比率が表示されます。エラーをクリックするとオフになり、現在のデータセットビューからセルのエラーを非表示にします。

列内に「その他」の値、空白、またはエラーがある場合は、その値に対応するボタンの横に+ボタンも表示されます。+ボタンをクリックすると、そのタイプのすべての値 (すべての「その他」の値など)が [選択した項目] リストに追加され、このリストでさらにフィルタリング操作を続けることができます。選択された項目から行うフィルター機能については、テキスト Filtergram の操作を覧ください。

テキスト Filtergram の操作

テキスト フィルタグラムペインには、データを動的に、陽性的中率でフィルタリングするツールが用意されています。このセクションでは、実行可能なアクションについて説明します。

a. データセットに表示する値をリストから選択:ペインのいずれかのテキスト値をクリックすると、データセットが動的にフィルタリングされて選択した値のみが表示されます。複数の値を選択するには: Ctrl キー(Windows)またはCommand キー(Mac)を押しながらクリックします。連続した範囲を選択するには、Shift キーを押しながらクリックします。選択を解除するには、Alt キーを押しながらクリックします。

b. 選択された項目を表示:フィルターにテキスト値を選択した後、選択された項目を表示をクリックします。新しいペインが開き、現在データセットに表示されている選択済みの範囲と値がすべて表示されます。注意: テキストフィールドの範囲は、ASCII のソート順で定義されています。このペインから以下の操作を行うことができます。

  • b1. データセットの範囲または値を手動で削除するには、範囲または値の横に隣接する、オレンジ色のチェックマークをクリックして削除します。クリックすると、その範囲または値がフィルタリング済みデータセットに戻されます。注意: 範囲または値の選択を解除すると、ペインの上部にごみ箱のアイコンが表示されます。これを使用して、選択した部分をフィルターから削除できます。

  • b2. 編集したい値をクリックして、ここにリストされている範囲または値を手動で更新します。それらの値が編集可能になります。新しい値を入力し、保存をクリックします。

  • b3. +ボタンをクリックして、他の範囲または値を手動で追加し、データをフィルタリングします。範囲の最小値と最大値を指定するか、または値を指定して、保存をクリックします。データセットが動的に更新され、追加した内容が反映されます。

  • b4. [除外] をクリックすると、データセットから範囲または値が除外されます。これは、すでに範囲を選択している場合に特に役立ちます。範囲から、現在のデータセットから非表示にする特定の値を(その範囲内から)除外することができます。除外対象としてマークした範囲および値は、ヒストグラムではオレンジ色の点線で囲まれ、それらが除外されていることを示していることに注意してください。

  • b5. このペインでの作業が完了したら、リストビューに戻るために選択した項目を非表示にするをクリックします。

c. クリアして反転:現在のフィルターをすべて削除します。フィルターするために選択した_もの_を除く、すべてのデータの表示が反転します。

値を検索することもできます。これを行うには、右上隅の虫眼鏡アイコンをクリックし、検索フィールドを開きます。指定した値を含む、指定した値と一致する、または指定した値で始まる値を検索します。

数値 Filtergram

数値 フィルタグラム ペインを開くと、データのフィルタリング操作を実行するために使用することができる2つのビューが表示されます。

  • グラフとして表示(デフォルトビュー)これはデータセット内の数値の分布を表す数値ヒストグラムです。水平線(x 軸)は、データセットのこの列に出現する値の範囲を表します。各バーの高さは、列に含まれる重複しない値の出現数を表します。縦線(y 軸)の値は、出現回数を示します。ヒストグラムで実行できるフィルタリング操作については、後述の数値 フィルタグラム で実行するセクションで説明します。

  • リストとして表示このタブをクリックすると、数値ヒストグラムが非表示になり、列に含まれるすべての値のユニーク数が表示されます。リストから、データセットに動的に表示する値を選択します。リストで実行できるフィルタリング操作については、数値 フィルタグムの操作セクションで説明します。

[Filtergram] ペインの上にマウスを動かすと、次のボタンが表示されます。

a. 現在選択されているボタン(左上): ヒストグラムから選択する場合、ボタンのラベルが変更され、選択した数が表示されます。ボタンをクリックすると、ヒストグラムで現在選択されている、すべての範囲と値が一覧表示されます。このペインから、引き続きデータセットに表示する数値を絞り込むことができます。フィルターによって絞り込む範囲と値が既に分かっている場合は、ヒストグラムを使用する代わりにこのボタンをクリックします。新しいペインから値と範囲を入力して、フィルタリング操作を開始することができます。このペインから実行できるアクションについては、数値 フィルタグラム を使用するセクションで説明しています。

b. ログボタン(左下): データの対数スケール(ログ)ビューをオンにします。デフォルトでは、データの線形表示が Filtergram に表示されます。ただし、大半のデータよりも 1 つまたは数個のポイントがはるかに大きくなる巨大な数的範囲がある場合は、ログの表示はデータ内の歪度に合わせて調整されます。

c. ズーム表示/パン(左下隅):数値ヒストグラムでズームインした値と、範囲の相対的な位置を表示する概要ツールのオンとオフを切り替えます。ズームとパニング操作は、後述の数値列をグラフとして表示セクションを参照してください。

d. Filtergram ペインの上にマウスを動かすと、次のボタンが表示されます:

  • タイプ:このボタンにマウスを置くと、「データセット内の数値型の行の総数」に対する「現在選択されている数値型の行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「数値型の行の総数」の比率が表示されます。このボタンをクリックすると、データセットでこれらの数値が非表示になります。これは、この列にブランク、エラー、またはその他の数値以外の値があり、それらのデータタイプのみを表示したい場合に役立ちます。

  • その他:テキスト値など、列に数値以外の値がある場合にはこのボタンが表示されます。このボタンの上にマウスを置くと、「データセット内の数値以外の値を持つ行の総数」に対する「現在選択されている数値以外の値を持つ行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「非数値の行の総数」の比率が表示されます。その他をクリックするとオフになり、現在のデータセットビューから他の値を非表示にします。

  • 空白:列内に空白がある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内の空白行の総数」に対する「現在選択されている空白行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「空白行の総数」の比率が表示されます。このボタンをクリックしてオフに切り替えると、現在のデータセットビューからブランクセルが非表示になります。

  • エラー:列内にエラーがある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内のエラーのある行の総数」に対する「現在選択されているセルエラーのある行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「セルエラーのある行の総数」の比率が表示されます。このボタンをクリックしてオフに切り替えると、現在のデータセットビューからセルエラーが非表示になります。

列内に「その他」の値、空白、またはエラーがある場合は、その値に対応するボタンの横に+ボタンも表示されます。+ボタンをクリックすると、そのタイプのすべての値 (すべての「その他」の値など)が [選択した項目] リストに追加され、このリストでさらにフィルタリング操作を続けることができます。選択した項目から実行するフィルタリング操作については、数値列をグラフとして表示を参照してください。

数値 Filtergram の操作

数値 フィルタグラム は、高い陽性的中率でデータを動的にフィルタリングするツールを提供します。このセクションでは、実行可能なアクションについて説明します。

数値列をグラフとして表示

  • ヒストグラムで表示する範囲を選択: マウスをクリック アンド ドラッグして値の範囲を選択すると、選択した範囲に合わせてデータセットが更新されます。ヒストグラムで連続していない範囲を追加で選択するには、Ctrl キー(Windows)またはCommand キー(Mac)を押しながらクリックしてマウスをドラッグしながら操作します。選択範囲または選択範囲の一部を解除するには、Alt キーを押しながらクリックしてマウスをドラッグします。

    また、ヒストグラムの範囲の先端にマウスでドラッグすると、データセットにそれらの値のみが表示されます。y 軸は、データのピークの相対値を確認するのに役立ちます。

  • データの探索と変換を開始:

a. ヒストグラムのパン:x 軸の値の上にマウスを置きます。カーソルがポインターからクリック アンド ドラッグの形に変わります。x軸上の値をマウスでクリックし、ヒストグラムおよび選択範囲上のパンする範囲をドラッグします。ヒストグラムをデフォルトの表示に戻すには、リセンターをクリックします。選択範囲は維持されていることに注意してください。

b. 選択範囲のズーム:x 軸の値の上にマウスを置き、マウスホイールを使用して選択範囲をズームします。Mac では、2 本の指を下にドラッグして選択の範囲をズームインし、2 本の指を上にドラッグしてズームアウトします。ズームインしながら、範囲の選択を続けることができます。ヒストグラムをデフォルトの表示に戻すには、リセンターをクリックします。ヒストグラムが初期化された後も選択範囲は維持されていることに注意してください。

c. ズームした範囲の相対位置の表示:選択範囲にズームインした後、その範囲がヒストグラム全体のどこに位置しているかを同時に表示できます。ズーム/パンをクリックすると、2 つ目の概要ツールのヒストグラムが下に表示されます。概要ツールにはデータの範囲全体が表示され、現在ズームしている範囲が赤のボックスで示されます。概要ツールのヒストグラムから、以下のこともできます:

  • 赤のボックスをドラッグし、選択していない他の値を同じズーム範囲で表示する。

  • 概要ツールとメインのヒストグラムの両方をインタラクティブに操作する。概要ツールのヒストグラムに対する操作はプライマリーヒストグラムにのみ反映されることに注意してください。データを動的にフィルタリングするには、プライマリーのヒストグラムで選択を行う必要があります。

d. 選択した項目を表示:選択したデータ範囲のフィルタリングした後、選択した項目を表示をクリックします。新しいペインが開き、そこでデータセットに表示する正確な範囲と値を指定します。このペインから以下の操作を行うことができます。

  • d1.) データセットの範囲または値を手動で削除するには、範囲または値の横に隣接する、オレンジ色のチェックマークをクリックして削除します。クリックすると、その範囲または値がフィルタリング済みデータセットに戻されます。注意: 範囲または値の選択を解除すると、ペインの上部にごみ箱のアイコンが表示されます。これを使用して、選択した部分をフィルターから削除できます。

  • d2.) 編集したい値をクリックして、ここにリストされている範囲または値を手動で更新します。それらの値が編集可能になります。新しい値を入力し、保存をクリックします。

  • d3.) +ボタンをクリックして、データをフィルタリングする範囲または値を手動に追加します。範囲の最小値と最大値を指定するか、または値を指定して、保存をクリックします。その範囲または値のエントリが作成されます。エントリのチェックボックスをクリックすると、データセットが動的に更新され、選択範囲が反映されます。

  • d4.) データセットから範囲または値を除外します。これは、すでに範囲を選択している場合に特に役立ちます。現在のデータセットから非表示にし、特定の値(その範囲内から)を範囲から除外することができます。例えば、データセットに表示するために1~2000の範囲を選択します。次に、値195を除外します。データセットは、値 195 を除く 1~2000 のすべてを表示します。EXCLUDE でマークした範囲と値はオレンジで表示され、その除外を示すために、ヒストグラムにおいて点線のアウトラインで表示されることに注意してください。

  • d5.) 選択の非表示をクリックすると、ペインをオフにし、選択した部分がヒストグラムで強調表示されるヒストグラムに戻ります。

e. 選択したデータを反転:フィルタリングするために選択したデータを除くすべてのデータを表示します。

f. クリア:現在のフィルターをすべて削除します。

g. 値の検索:右上隅にある拡大鏡アイコンをクリックすると、検索フィールドが開きます。指定した値を含む、指定した値と一致する、または指定した値で始まる値を検索できます。

数値列をリストとして表示

リストビューでは、カラム内のすべての数値の出現数を確認できます。この形式でデータを表示することは、特定の数値をすばやく選択してフィルタリングしたい場合に特に便利です。グラフとして表示タブをクリックした場合、[リスト] 内の選択がヒストグラムに表示されることに注意してください。このセクションでは、実行できるアクションについて説明します。

a. リスト順の並び替え: デフォルトでは、値のリストが最小カウントから最高カウントに表示されます。順序を逆にするには、右上隅の出現数の列の上にある三角形をクリックします。リストの上にある三角形をクリックして数値の順に並べ替えることもできます。三角形のオレンジ色は、現在データセットに適用されている並び替え順(発生順または数値順)を示しています。

b. データセットに動的に表示する値を選択:クリックして、リストから値を選択します。複数の値を選択するには: Ctrl キー(Windows)またはCommand キー(Mac)を押しながらクリックします。連続した複数行の範囲を選択するには、Shift キーを押しながらクリックします。選択を解除するには、次のキーコマンドを使用して、Alt キーを押しながらクリックします。選択した後、左上隅にある現在の選択をクリックすると、フィルタリング操作の精度をより継続できる新しいペインが開きます。データセットのフィルタリングに使用する範囲や値が正確に分かっている場合は、リストから選択する手順をスキップしてもかまいません。代わりに、選択した項目がないをクリックすると、正確な値と範囲を入力する新しいペインが開きます。

c. 選択した項目を再度表示:選択した後、左上隅にある選択した項目を表示をクリックすると、フィルタリング操作の再表示を継続できる新しいペインが開きます。ボタンのラベルには、現在選択されている項目数が反映されます。

データセットのフィルタリングに使用する範囲や値が正確に分かっている場合は、リストから選択する手順をスキップしてもかまいません。この場合、ボタンのラベルはアイテムが選択されていませんになります。このボタンをクリックして新しいペインを開き、そこで正確な値と範囲を入力します。ペインから実行できるフィルタリング操作については、数値列をグラフとして表示のステップ d1-d5 で説明します。また、選択した部分を反転およびクリアし、リストから特定の値を検索することもできます。詳細については、同じセクションの手順 e-g を参照してください。

日付と時刻 Filtergram

日付/時刻 フィルターグラム ペインを開くと、次の 2 つのビューが表示され、 これらのビューを使用して、データに対するフィルタリング操作を行うことができます:

  • グラフとして表示(デフォルトビュー)

    これはデータセット内の日付/時刻の値の分布を表すヒストグラムです。水平線(x 軸)は、データセットのこの列に出現する日付値の範囲を表します。各バーの高さは、列に含まれる重複しない日付値の出現数を表します。縦線(y 軸)の値は、出現回数を示します。ヒストグラムで実行できるフィルタリング操作は、後述の日付と時刻の列をグラフとして表示セクションで説明します。

  • リストとして表示このタブをクリックすると、日付/時刻のヒストグラムが非表示になり、列に含まれるすべての日付/時刻の値のユニーク数が表示されます。リストから、データセットに動的に表示する値を選択します。リストで実行できるフィルタリング操作は、後述の日付と時刻の列をリストとして表示セクションで説明します。

日付と時刻 Filtergram

[Filtergram] ペインの上にマウスを動かすと、次のボタンが表示されます。

a. 現在選択されている(左上隅): ヒストグラムから選択する場合、ボタンのラベルが変更され、選択した数が表示されます。ボタンをクリックすると、ヒストグラムで現在選択されている、すべての範囲と値が一覧表示されます。このペインから、引き続きデータセットに表示する日付/時刻を絞り込むことができます。フィルターによって絞り込む範囲と値が既に分かっている場合は、ヒストグラムを使用する代わりにこのボタンをクリックします。新しいペインから日付と日付の範囲を入力して、フィルタリング操作を開始することができます。このペインから実行できるアクションについては、後述の日付と時刻列をグラフとして表示セクションと、日付と時刻の列をリストとして表示セクションで説明します。

b. ログ(左下隅): データの対数スケール(ログ)ビューをオンにします。デフォルトでは、データの線形表示が Filtergram に表示されます。ただし、大半のデータよりも 1 つまたは数個のポイントがはるかに大きくなる範囲がある場合、ログの表示はデータ内の歪度に合わせて調整されます。

c. ズーム表示/パン(左下隅): ヒストグラムでズームインした値と、範囲の相対的な位置を表示する概要ツールのオンとオフを切り替えます。ズーミングとパニング操作については、日付と時刻列をグラフとして表示セクションで説明します。

d. Filtergram ペインの上にマウスを動かすと、次のボタンが表示されます:

  • タイプ:このボタンにマウスを置くと、「データセット内の日付/時刻型の行の総数」に対する「現在選択されている日付/時刻型の行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「日付/時刻型の行の総数」の比率が表示されます。このボタンをクリックすると、データセットで日付/時刻の値が非表示になります。これは、この列に空白、エラー、またはその他の日付/時刻以外の値があり、それらのデータタイプのみを表示したい場合に役立ちます。

  • その他:列に日付/時刻以外の値がある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内の日付/時刻以外の値を持つ行の総数」に対する「現在選択されている日付/時刻以外の値を持つ行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「日付/時刻以外の値を持つ行の総数」の比率が表示されます。その他をクリックするとオフになり、現在のデータセットビューから他の値を非表示にします。

  • 空白:列内に空白がある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内の空白行の総数」に対する「現在選択されている空白行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「空白行の総数」の比率が表示されます。ブランクをクリックするとオフになり、現在のデータセットビューからブランクセルを非表示にします。

  • エラー:列内にエラーがある場合は、このボタンが表示されます。このボタンにマウスを置くと、「データセット内のエラーのある行の総数」に対する「現在選択されているセルエラーのある行の数」の比率が表示されます。ヒストグラムで何も選択されていない場合は、「データセット内の行の総数」に対する「セルエラーのある行の総数」の比率が表示されます。エラーをクリックするとオフになり、現在のデータセットビューからセルのエラーを非表示にします。

列内に「その他」の値、空白、またはエラーがある場合は、その値に対応するボタンの横に+ボタンも表示されます。+ボタンをクリックすると、そのタイプのすべての値 (すべての「その他」の値など)が [選択した項目] リストに追加され、このリストでさらにフィルタリング操作を続けることができます。選択した項目から実行するフィルタリング操作については、以下を参照してください。

日付/時刻のヒストグラムには、データを高い精度で動的にフィルタリングできる強力なツールが用意されています。このセクションでは、実行可能なアクションについて説明します。

日付と時刻列をグラフとして表示

  • ヒストグラムで表示する範囲を選択: マウスをクリック アンド ドラッグして値の範囲を選択すると、選択した範囲に合わせてデータセットが更新されます。ヒストグラムで連続していない範囲を追加で選択するには、Ctrl キー(Windows)またはCommand キー(Mac)を押しながらクリックしてマウスをドラッグしながら操作します。選択範囲または選択範囲の一部を解除するには、Alt キーを押しながらクリックしてマウスをドラッグします。

    また、一定範囲のバーの先端部のみをマウスでドラッグすると、データセットにそれらの値のみが表示されます。y 軸は、データのピークの相対値を確認するのに役立ちます。

  • データの探索と変換を開始:

a. ヒストグラムのパン:x 軸の値の上にマウスを置きます。カーソルがポインターからクリック アンド ドラッグの形に変わります。x軸上の値をマウスでクリックし、ヒストグラムおよび選択範囲上のパンする範囲をドラッグします。ヒストグラムをデフォルトの表示に戻すには、リセンターボタンをクリックします。選択範囲は維持されていることに注意してください。

b. 選択範囲のズーム:x 軸の値の上にマウスを置き、マウスホイールを使用して選択範囲をズームします。Mac では、2 本の指を下にドラッグして選択の範囲をズームインし、2 本の指を上にドラッグしてズームアウトします。ズームインしながら、範囲の選択を続けることができます。ヒストグラムをデフォルトの表示に戻すには、リセンターをクリックします。ヒストグラムが初期化された後も選択範囲は維持されていることに注意してください。

c. ズームした範囲の相対位置の表示:選択範囲にズームインした後、その範囲がヒストグラム全体のどこに位置しているかを同時に表示できます。[ズーム/パン] ボタンをクリックすると、2 つ目の概要ツールのヒストグラムが下に開きます。概要ツールにはデータの範囲全体が表示され、現在ズームしている範囲が赤のボックスで示されます。概要ツールのヒストグラムから、以下のこともできます。

  • 赤のボックスをドラッグし、選択していない他の値を同じズーム範囲で表示する。
  • 概要ツールとメインのヒストグラムの両方をインタラクティブに操作する。概要ツールのヒストグラムに対する操作はプライマリーヒストグラムにのみ反映されることに注意してください。データを動的にフィルタリングするには、メインのヒストグラムで選択を行う必要があります。

d. 選択した項目を表示: 選択した範囲をフィルタリングした後、選択した項目を表示します新しいペインが開き、現在データセットに表示されている選択済みの範囲と値がすべて表示されます。このペインから、データセットから範囲または値を除外することができます。これは、すでに範囲を選択している場合に特に役立ちます。現在のデータセットから非表示にし、特定の値(その範囲内から)を範囲から除外することができます。例えば、データセットに表示する日付範囲を次のように選択しました:2015年3月1日~2015年3月15日。 次に、日付 2015年3月10日を除外します。データセットには、2015年3月10日を除く範囲内のすべてが表示されます。

除外対象としてマークした範囲および値は、ヒストグラムではオレンジ色の点線で囲まれ、それらが除外されていることを示していることに注意してください。

範囲または値の選択を解除すると、ペインの上部にごみ箱のアイコンが表示されます。これを使用して、選択した部分をフィルターから削除できます。

選択の非表示をクリックすると、ペインをオフにし、選択した部分と除外した部分がヒストグラムで強調表示されるヒストグラムに戻ります。

e. 利用可能なチャート:このタブをクリックすると、4つの追加フィルター(年月、月、週、日)から選択して、陽性的中率で日付/時刻データをフィルタリングできます。フィルターを選択した後、[使用可能な 5 つのチャート] タブをもう一度クリックすると、そのフィルターがビューに固定されます。これらのフィルターで作業している間、選択した内容を反映してデータセットが動的に更新されます。

f. クリア:現在のフィルターをすべて削除します。

g. 選択したデータを反転:フィルタリングするために選択したデータを除くすべてのデータを表示します。

h. 値の検索:右上隅にある拡大鏡アイコンをクリックすると、検索フィールドが開きます。指定した値を含む、指定した値と一致する、または指定した値で始まる値を検索できます。

日付と時刻列をリストとして表示

リスト形式のフィルタービューでは、カラム内のすべての日付/時刻の値の出現数を確認できます。この形式でデータを表示することは、特定の日付をすばやく選択してフィルタリングしたい場合に特に便利です。グラフとして表示タブをクリックした場合、[リスト] 内の選択がヒストグラムに表示されることに注意してください。このセクションでは、実行できるアクションについて説明します。

a. リスト順の並び替え: デフォルトでは、データのリストが最小カウントから最大出現に表示されます。順序を逆にするには、右上隅の出現数の列の上にある三角形をクリックします。日付/時刻の値の上にある三角形をクリックして時系列順に並べ替えることもできます。三角形のオレンジ色は、現在データセットに適用されている並べ替え順序(発生または時系列)を表示します。

bデータセットに動的に表示する値を選択: クリックして、リストから値を選択します。複数の値を選択するには: Ctrl キー(Windows)またはCommand キー(Mac)を押しながらクリックします。連続した複数行範囲を選択するには、Shift キーを押しながらクリックします。選択を解除するには、次のキーコマンドを使用して、Alt キーを押しながらクリックします。選択した後、左上隅にある現在の選択をクリックすると、フィルタリング操作の精度をより継続できる新しいペインが開きます。データセットのフィルタリングに使用する範囲や日付が正確にわかっている場合は、リストから選択する手順をスキップしてもかまいません。代わりに、選択した項目がないをクリックすると、正確な値と範囲を入力する新しいペインが開きます。

c. 選択した項目を再度表示:選択した後、左上隅にある選択した項目を表示をクリックすると、フィルタリング操作の再表示を継続できる新しいペインが開きます。ボタンのラベルには、現在選択されている項目数が反映されます。

ペインから実行するフィルタリング操作は、日付と時刻列をグラフとして表示セクションのステップ d で説明します。また、選択した部分を反転およびクリアし、リストから特定の値を検索することもできます。同じセクションの手順 f-g を参照してください。

ブール値 Filtergram

ブール値の フィルタグラムでは、データセット内のブール値の出現数を表示し、その他の値をデータセットからフィルターで除外できます。

左から右へ伸びるバーは、それぞれの値の相対的な出現回数のヒストグラムを示します。ユニーク数を総数に表示する値の総数がペインの左下に表示されます。リストから、データセットに動的に表示する値を選択できます。

ブール値 フィルタグラム 表示の概要を以下に示します:

ブール値 Filtergram の操作

[Filtergram] ペインの上にマウスを動かすと、次のボタンが表示されます。

  • タイプ:このボタンにマウスを置くと、この列でのブール値の出現数が表示されます。このボタンをクリックすると、列内のブール値が非表示になります。

  • その他:列にブール値以外の値が含まれている場合は、このボタンが表示されます。このボタンにマウスを置くと、この列のブール値以外の値の出現数が表示されます。このボタンをクリックすると、この列のブール値以外の値が非表示になります。また、+ボタンをクリックすると、「その他」のすべての値が Filtergram リストに追加されます。その後、現在のデータセットビューから特定の「その他」の値を除外して非表示にすることができます。そのためには、Alt+CRTL キー(ウィンドウズ)またはAlt+Command キー(Mac)を押しながら、非表示にする「その他」の値をクリックします。

  • 空白:列内に空白がある場合は、このボタンが表示されます。このボタンにマウスを置くと、この列の空白値の出現数が表示されます。このボタンをクリックすると、列内の空白値が非表示になります。

  • エラー:列内にエラーがある場合は、このボタンが表示されます。このボタンにマウスを置くと、この列のセルエラーの出現数が表示されます。このボタンをクリックすると、列内のセルエラーが非表示になります。

クリア反転を使用して、Filtergram リストで選択を管理します。反転はリストで選択した値を_除く_、現在のデータセットビューにある値すべてを表示していることに注意してください。

ソース Filtergram

ソース フィルタグラム では、ルックアップ データセットおよび追加したデータセットの行がプロジェクトの基本データセットにどのように関係しているかを表示できます。

ソース Filtergram の例

基本データセットと一致しないルックアップ データセットの行を含む外部結合があるとします。ソース Filtergram を使用すると、この結合に関係している基本データセットの行数とルックアップ データセットの行数がわかります。さらに、各データセットソースの一致していない行数も表示されます。

以下にソース フィルタグラム 表示の概要例を示します:

デフォルトでは、ソースのリストは出現数の多い順に並んでいます。順序を逆にするには、右上隅の出現数の列の上にあるオレンジ色の三角形をクリックします。リストの上にある三角形をクリックしてアルファベット順に並べ替えることもできます。三角形のオレンジ色は、現在リストに数字とアルファベットのどちらの並び順が適用されているかを示します。

ソース Filtergram の操作

a. データセットに表示するソースを選択:いずれかのソースをクリックすると、データセットが動的にフィルタリングされてそのソースのみが表示されます。複数のソース を選択するには: Ctrl キー(Windows)またはCommand キー(Mac)を押しながらクリックします。連続した複数行範囲を選択するには、Shift キーを押しながらクリックします。

b. クリア:すべてのソースフィルターの選択を削除します。

c. 選択を反転:選択したものを除くすべてのソースを表示します。

d. ソースファイルの検索: 右上隅にある虫眼鏡アイコンをクリックすると、検索フィールドが開きます。指定したテキスト値を含む、指定したテキスト値と一致する、または指定したテキスト値で始まるソースファイルを検索できます。

e. フィルター選択の調整:選択した項目を表示をクリックします。新しいペインが開き、現在選択されているソースが表示されます。このペインから以下の操作を行うことができます。

  • ソースの除外:これは、再度除外をクリックするまで、関連付けられたソースをデータセットから非表示にするトグルです。除外対象としてマークされたソースは、最初の Filtergram ペインではオレンジ色の点線で囲まれ、それらが除外されていることを示していることに注意してください。

  • ソースの選択を解除すると、ペインの上部にごみ箱のアイコンが表示されます。これを使用して、ソースをフィルターから削除できます。

  • このペインでの作業が完了したら、最初の Filtergram ビューに戻るために選択した項目を非表示にするをクリックします。

ダイナミック レンジ

Filtergram の動的百分位数機能では、選択値の百分位数を指定する強力なオプションを利用できます。たとえば、販売された製品の地域および週単位の列があるインベントリデータセットがあれば、動的百分位数を使用して、地域ごとに販売されたトップ 5% の製品をフィルタリングして選択することができます。パーセンタイルの選択範囲は最新バージョンのデータセットにも動的に適用され、それらは自動プロジェクトフロー(APF)を通してライブラリで自動的に更新されます。たとえば、動的百分位数と APF 機能を使用して、AnswerSet を毎週自動的に生成し、地域および週単位で販売された上位 5% の製品を確認することができます。

動的フィルタリングオプションは、日付/時刻型、文字列型、数値型の列に適用できます。動的フィルタリングペインを開くには:

(a.) Filtergram の左上隅にある現在の選択をクリックします。

(b.) ダイナミックタイプ/レンジを追加をクリックします。

ダイナミクスペインが開きます:

動的選択の操作

1. パーセンタイル範囲に含める値のタイプを選択または選択解除:検証、無効、空白、エラー:

  • 検証:数値タイプの列など、列のタイプと同じタイプの値。
  • 無効:数値タイプの列のアルファベット文字など、列タイプと同じタイプではない値。
  • 空白: 列に空白がある場合は使用します。
  • エラー: 列内にエラーがある場合は使用します。

2. +ボタンをクリックして、希望の数のダイナミックレンジを追加します。

備考

これらの範囲はそれぞれ手順1で選択した値の型にのみ適用されます。

3. ダイナミックレンジを設定: 数直線上の境界をドラッグし、希望の値を設定します。

ヒント

キーボードの左と右の矢印キーを使用して、数値線の正確な値を調整します。

4. (オプション): 範囲選択をさらに追加します(上記の手順 1 から 3 を行います)。複数の範囲選択を作成すると、各選択範囲は AND 演算として扱われます。たとえば、2 つの選択範囲(上位 10 番目のパーセンタイルを選択する範囲と下位 10 番目のパーセンタイルを選択する範囲)を作成した場合は、これらのパーセンタイルと一致する値が Filtergram 上でハイライト表示され、それに応じてデータグリッドに表示されます。

備考

ダイナミックフィルタリングオプションは、列タイプごとに、このドキュメントで説明されている他のフィルタリング操作と常に連動するように設定することができます。

5. Value(値)またはCount(カウント)順に並べる:Value(値) 順に並べた場合は、パーセンタイルは列内の実測値に基づいて算出されます。データを Count(カウント) 順に並べた場合は、パーセンタイルは値ごとの出現頻度に基づいて算出されます。たとえば、試験の参加者の年齢とスコアを含む、以下のようなデータセットがあるとします。

各参加者が相対的にどのようにスコアを得ているかを確認するには、Value(値) 順に並べます。

検査自体の妥当性と有用性を確認したり、検査結果のパターンを表示させたりするには、Count(カウント) 順に並べます。

6. 現在の選択をクリックすると、グラフまたはリストビューで強調表示されたパーセンタイルが表示されます。

列全体の複数の Filtergram パターン

複数列の Filtergram は同時に開いて動的にフィルタリングできます。複数の Filtergram 解像度は左から右となっています。左側にダイナミックレンジが設定されている場合は、右側の隣接した Filtergram によって選択される結果値に影響することに注意してください。

左の Filtergram を抜けると、その列に適用されているダイナミックレンジは削除されます。

備考

  • もしインタラクティブモード機能が有効になっている場合は、選択範囲はデータセット全体に適用されます。
  • ダイナミック レンジは、有効にする必要がある機能です。このボタンがプロジェクトに表示されない場合は、Data Prep システム管理者に連絡してください。

  • 更新しました March 1, 2022
    Back to top