Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

統計的に計算された列関数

このセクションでは、Data Prep計算ツールで使用できる統計的に計算された列関数の構文と例を示します。 統計機能を使用するには、値を数値データ型として保存する必要があります。数値データ型は、ヘッダー行の数値データ型アイコンによって識別されます。数値データ型として保存されていない場合は、VALUE関数を使って数値形式に変換します。

AVERAGE

リストのアイテム数で割った数値のリストの合計と等しい値を計算します。

構文

AVERAGE(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2、...[オプション]は追加の値です。

AVERAGE(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

Max

値の集合から最大(maximum)値を返します。

構文

MAX(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2``, ...[オプション]は追加の値です。

MAX(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

Median

最小値から最高値まで並べられた数値の範囲の中央に存在する数値を返します。

構文

MEDIAN(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2, ...[オプション]は追加の値です。

MEDIAN(@colum_A@, @colum_B@, @colum_C@, @colum_C@, @colum_E@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

偶数の数値の集合を含む範囲で、中央値は中央の数値です。半分の数値は返される値の右側に、もう半分は返される左側にあります。範囲の中央に単一の数値がない場合)、中央値は中点のいずれかの側にある2つの数値の平均を計算します。

備考

中央値は平均値とは異なります。平均値は算術平均であり、数値の集合を合計し、集合内の値の数で除して計算されます。中央値は、範囲の中央にある値を取ります。コレクション内の値の分布でバランスを示す数値範囲では、中央値と平均値の計算が偶然に一致することがあります。ひずみのある分布では、値は異なります。

Min

値の集合から最小(minimum)の値を返します。

構文

MIN(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2, ...[オプション]は追加の値です。

MIN(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

モード

数値の集合で最も頻繁に発生する値を返します。

構文

MODE(VALUE_1, VALUE_2, [VALUE_3, ...])

  • VALUE_1は最初の値です。
  • VALUE_2は2番目の値です。
  • VALUE_3, ...[オプション]は追加の値です。

MODE(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するは、数値、数値を含む列、または数値を返す関数でなければなりません。

複数の数値が1より大きい同等の発生回数を持つ場合、返される値は、集合内で最初に表示される(左から右に読んで)数値(頻度が同等であるもののうち)です。1回を上回る数値が一つも表示されない場合、関数はエラーを返します。

MODEに関連する最も一般的な問題は、提供された数値集合に重複がない場合です。関数が正常に数値を求めるには、少なくとも1つの数値が2回以上表示される必要があります。最小数の引数(2)を使用する場合、各引数が求める数は同じ数値になる必要があり、そうでなければエラーが発生します。予想される通り、より変動に制限のある、より大きな数値集合は、MODEエラーを返す可能性が小さくなります。

STDEV

データのサンプル集合に含まれる値の標準偏差(平均からの変動の度合い)を推定します。

構文

STDEV(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2, ...[オプション]は追加の値です。

STDEV(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

データの標準偏差は、その分散の平方根です。分析中の集合がすべてのデータポイントを表す場合(母集団と呼ばれます)、代わりにSTDEVPを使用します。

STDEVP

データの集合の全体(母集団)に存在する標準偏差(平均からの変動の度合い)を推定します。

構文

STDEVP(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2, ...[オプション]は追加の値です。

STDEVP(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

分析中の集合がデータポイントのサンプルのみを表す場合、代わりにSTDEVを使用します。

VAR

データのサンプル集合に含まれる値の分散度(値の散らばり度合い)を推定します。

構文

VAR(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2, ...[オプション]は追加の値です。

VAR(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

分析中の集合がすべてのデータポイントを表す場合(母集団と呼ばれます)、代わりにVARPを使用します。

VARP

データの全体集合(母集団)内に存在する分散の程度(値の散らばり度合い)を推定します。

構文

VARP(VALUE_1, [VALUE_2, ...])

  • VALUE_1は最初の値です。
  • VALUE_2, ...[オプション]は追加の値です。

VARP(@Column_A@, @Column_B@, @Column_C@)

使用に関する注意

提供するVALUEは、数値、数値を含む列、または数値を返す関数でなければなりません。

分析中の集合がデータポイントのサンプルのみを表す場合、代わりにVARを使用します。


更新しました February 22, 2022
Back to top