65 KiB
machine_translated | machine_translated_rev | toc_priority | toc_title |
---|---|---|---|
true | d734a8e46d |
36 | 参照 |
関数リファレンス
カウント
行数またはnull以外の値をカウントします。
ClickHouseは以下の構文をサポートしています count
:
count(expr)
またはCOUNT(DISTINCT expr)
.count()
またはCOUNT(*)
. そのcount()
構文はClickHouse固有です。
パラメータ
機能は取ることができます:
- ゼロ変数。
- ワン 式.
戻り値
- 関数がパラメータなしで呼び出されると、行数がカウントされます。
- この 式 が渡されると、この関数は、この式がnullではなく返された回数をカウントします。 式がaを返す場合 Nullable-タイプ値、そして結果の
count
滞在しないNullable
. 式が返された場合、関数は0を返しますNULL
すべての行について。
どちらの場合も、戻り値の型は次のようになります UInt64.
詳細
クリックハウスは COUNT(DISTINCT ...)
構文。 この構成の動作は、 count_distinct_implementation 設定。 それはどれをの定義します uniq* 関数は、操作を実行するために使用されます。 デフォルトは ユニキャック 機能。
その SELECT count() FROM table
テーブル内のエントリの数が別々に格納されていないため、クエリは最適化されません。 テーブルから小さな列を選択し、その中の値の数を数えます。
例
例1:
SELECT count() FROM t
┌─count()─┐
│ 5 │
└─────────┘
例2:
SELECT name, value FROM system.settings WHERE name = 'count_distinct_implementation'
┌─name──────────────────────────┬─value─────┐
│ count_distinct_implementation │ uniqExact │
└───────────────────────────────┴───────────┘
SELECT count(DISTINCT num) FROM t
┌─uniqExact(num)─┐
│ 3 │
└────────────────┘
この例では、 count(DISTINCT num)
によって実行される。 uniqExact
に従う機能 count_distinct_implementation
設定値。
任意(x)
最初に検出された値を選択します。 クエリは、毎回異なる順序で実行することができるため、この関数の結果は不確定です。 確定的な結果を得るには、 ‘min’ または ‘max’ 関数の代わりに ‘any’.
場合によっては、実行順序に頼ることができます。 これは、order byを使用するサブクエリからのselectの場合に適用されます。
とき SELECT
クエリには GROUP BY
句または少なくとも一つの集計関数、ClickHouse(MySQLとは対照的に)内のすべての式ということが必要です SELECT
, HAVING
、と ORDER BY
句は、キーまたは集計関数から計算されます。 つまり、テーブルから選択された各列は、キーまたは集計関数内で使用する必要があります。 MySQLのような動作を得るには、他の列を any
集計関数。
anyHeavy(x)
頻繁に発生する値を選択します。 ヘビーヒッターズ アルゴリズムだ 各クエリの実行スレッドのケースの半分を超える値がある場合は、この値が返されます。 通常、結果は非決定的です。
anyHeavy(column)
引数
column
– The column name.
例えば
を取る オンタイム データセットと選択頻繁に発生する値で AirlineID
コラム
SELECT anyHeavy(AirlineID) AS res
FROM ontime
┌───res─┐
│ 19690 │
└───────┘
anyllast(x)
最後に検出された値を選択します。
結果は、次の場合と同様に不確定です any
機能。
groupBitAnd
ビットごとの適用 AND
一連の数字のために。
groupBitAnd(expr)
パラメータ
expr
– An expression that results in UInt*
タイプ。
戻り値
の値 UInt*
タイプ。
例えば
テストデータ:
binary decimal
00101100 = 44
00011100 = 28
00001101 = 13
01010101 = 85
クエリ:
SELECT groupBitAnd(num) FROM t
どこに num
テストデータの列です。
結果:
binary decimal
00000100 = 4
groupBitOr
ビットごとの適用 OR
一連の数字のために。
groupBitOr(expr)
パラメータ
expr
– An expression that results in UInt*
タイプ。
戻り値
の値 UInt*
タイプ。
例えば
テストデータ:
binary decimal
00101100 = 44
00011100 = 28
00001101 = 13
01010101 = 85
クエリ:
SELECT groupBitOr(num) FROM t
どこに num
テストデータの列です。
結果:
binary decimal
01111101 = 125
groupBitXor
ビットごとの適用 XOR
一連の数字のために。
groupBitXor(expr)
パラメータ
expr
– An expression that results in UInt*
タイプ。
戻り値
の値 UInt*
タイプ。
例えば
テストデータ:
binary decimal
00101100 = 44
00011100 = 28
00001101 = 13
01010101 = 85
クエリ:
SELECT groupBitXor(num) FROM t
どこに num
テストデータの列です。
結果:
binary decimal
01101000 = 104
groupBitmap
符号なし整数列からのビットマップ計算または集計計算を行い、uint64型のカーディナリティを返します。 ビットマップ.
groupBitmap(expr)
パラメータ
expr
– An expression that results in UInt*
タイプ。
戻り値
の値 UInt64
タイプ。
例えば
テストデータ:
UserID
1
1
2
3
クエリ:
SELECT groupBitmap(UserID) as num FROM t
結果:
num
3
最小(x)
最小値を計算します。
最大(x)
最大値を計算します。
argMin(arg,val)
を計算し ‘arg’ 最小値の値 ‘val’ 値。 いくつかの異なる値がある場合 ‘arg’ のための最小値 ‘val’ これらの値のうち、最初に検出された値が出力されます。
例えば:
┌─user─────┬─salary─┐
│ director │ 5000 │
│ manager │ 3000 │
│ worker │ 1000 │
└──────────┴────────┘
SELECT argMin(user, salary) FROM salary
┌─argMin(user, salary)─┐
│ worker │
└──────────────────────┘
argMax(arg,val)
を計算し ‘arg’ 最大値の値 ‘val’ 値。 いくつかの異なる値がある場合 ‘arg’ の最大値 ‘val’ これらの値のうち、最初に検出された値が出力されます。
sum(x)
合計を計算します。 数字のためにのみ動作します。
sumWithOverflow(x)
入力パラメーターの結果と同じデータ型を使用して、数値の合計を計算します。 合計がこのデータ型の最大値を超えると、関数はエラーを返します。
数字のためにのみ動作します。
sumMap(キー,値)
合計 ‘value’ 配列に指定されたキーに応じて ‘key’ 配列だ の要素の数 ‘key’ と ‘value’ 合計される行ごとに同じでなければなりません。 Returns a tuple of two arrays: keys in sorted order, and values summed for the corresponding keys.
例えば:
CREATE TABLE sum_map(
date Date,
timeslot DateTime,
statusMap Nested(
status UInt16,
requests UInt64
)
) ENGINE = Log;
INSERT INTO sum_map VALUES
('2000-01-01', '2000-01-01 00:00:00', [1, 2, 3], [10, 10, 10]),
('2000-01-01', '2000-01-01 00:00:00', [3, 4, 5], [10, 10, 10]),
('2000-01-01', '2000-01-01 00:01:00', [4, 5, 6], [10, 10, 10]),
('2000-01-01', '2000-01-01 00:01:00', [6, 7, 8], [10, 10, 10]);
SELECT
timeslot,
sumMap(statusMap.status, statusMap.requests)
FROM sum_map
GROUP BY timeslot
┌────────────timeslot─┬─sumMap(statusMap.status, statusMap.requests)─┐
│ 2000-01-01 00:00:00 │ ([1,2,3,4,5],[10,10,20,10,10]) │
│ 2000-01-01 00:01:00 │ ([4,5,6,7,8],[10,10,20,10,10]) │
└─────────────────────┴──────────────────────────────────────────────┘
skewPop
を計算します 歪み シーケンスの。
skewPop(expr)
パラメータ
expr
— 式 番号を返す。
戻り値
The skewness of the given distribution. Type — Float64
例えば
SELECT skewPop(value) FROM series_with_value_column
串焼き
を計算します サンプルの歪度 シーケンスの。
これは、渡された値がそのサンプルを形成する場合、確率変数の歪度の不偏推定値を表します。
skewSamp(expr)
パラメータ
expr
— 式 番号を返す。
戻り値
The skewness of the given distribution. Type — Float64. もし n <= 1
(n
はサンプルのサイズです)、関数は次の値を返します nan
.
例えば
SELECT skewSamp(value) FROM series_with_value_column
kurtPop
を計算します 尖度 シーケンスの。
kurtPop(expr)
パラメータ
expr
— 式 番号を返す。
戻り値
The kurtosis of the given distribution. Type — Float64
例えば
SELECT kurtPop(value) FROM series_with_value_column
kurtSamp
を計算します サンプル尖度 のシーケンスです。
これは、渡された値がサンプルを形成する場合、確率変数の尖度の不偏推定値を表します。
kurtSamp(expr)
パラメータ
expr
— 式 番号を返す。
戻り値
The kurtosis of the given distribution. Type — Float64. もし n <= 1
(n
はサンプルのサイズです)、関数は次の値を返します nan
.
例えば
SELECT kurtSamp(value) FROM series_with_value_column
timeSeriesGroupSum(uid,タイムスタンプ,値)
timeSeriesGroupSum
総異なる時系列のサンプルのタイムスタンプなアライメントを実施します。
これは、二つのサンプルタイムスタンプ間の線形補間を使用して、一緒に時系列を合計します。
uid
タイムシリーズの一意のidです,UInt64
.timestamp
ミリ秒またはマイクロ秒をサポートするためにInt64型です。value
メトリックです。
この関数は、以下のタプルの配列を返します (timestamp, aggregated_value)
のペアになっています。
この機能を使用する前に確認 timestamp
は昇順です。
例えば:
┌─uid─┬─timestamp─┬─value─┐
│ 1 │ 2 │ 0.2 │
│ 1 │ 7 │ 0.7 │
│ 1 │ 12 │ 1.2 │
│ 1 │ 17 │ 1.7 │
│ 1 │ 25 │ 2.5 │
│ 2 │ 3 │ 0.6 │
│ 2 │ 8 │ 1.6 │
│ 2 │ 12 │ 2.4 │
│ 2 │ 18 │ 3.6 │
│ 2 │ 24 │ 4.8 │
└─────┴───────────┴───────┘
CREATE TABLE time_series(
uid UInt64,
timestamp Int64,
value Float64
) ENGINE = Memory;
INSERT INTO time_series VALUES
(1,2,0.2),(1,7,0.7),(1,12,1.2),(1,17,1.7),(1,25,2.5),
(2,3,0.6),(2,8,1.6),(2,12,2.4),(2,18,3.6),(2,24,4.8);
SELECT timeSeriesGroupSum(uid, timestamp, value)
FROM (
SELECT * FROM time_series order by timestamp ASC
);
結果は次のようになります:
[(2,0.2),(3,0.9),(7,2.1),(8,2.4),(12,3.6),(17,5.1),(18,5.4),(24,7.2),(25,2.5)]
timeSeriesGroupRateSum(uid,ts,val)
同様にtimeseriesgroupratesum、timeseriesgroupratesumは、時系列のレートを計算し、その後、一緒にレートを合計します。 また、この関数を使用する前にタイムスタンプが昇順になるはずです。
この関数を使用すると、上記の結果は次のようになります:
[(2,0),(3,0.1),(7,0.3),(8,0.3),(12,0.3),(17,0.3),(18,0.3),(24,0.3),(25,0.1)]
平均(x)
平均を計算します。 数字のためにのみ動作します。 結果は常にfloat64です。
uniq
引数の異なる値のおおよその数を計算します。
uniq(x[, ...])
パラメータ
この関数は、可変個のパラメータを受け取ります。 変数は Tuple
, Array
, Date
, DateTime
, String
、または数値型。
戻り値
- A UInt64-タイプ番号。
実装の詳細
機能:
-
集計内のすべてのパラメータのハッシュを計算し、それを計算に使用します。
-
を使用して適応サンプリングアルゴリズムです。 計算状態の場合、関数は65536までの要素ハッシュ値のサンプルを使用します。
This algorithm is very accurate and very efficient on the CPU. When the query contains several of these functions, using `uniq` is almost as fast as using other aggregate functions.
-
結果を確定的に提供します(クエリ処理の順序に依存しません)。
使用をお勧めしますこの機能はほとんど全てのシナリオ.
また見なさい
uniqCombined
異なる引数値のおおよその数を計算します。
uniqCombined(HLL_precision)(x[, ...])
その uniqCombined
関数は、異なる値の数を計算するのに適しています。
パラメータ
この関数は、可変個のパラメータを受け取ります。 変数は Tuple
, Array
, Date
, DateTime
, String
、または数値型。
HLL_precision
は、2のセル数の底の対数です ハイパーログ. オプションで、次のように関数を使用できます uniqCombined(x[, ...])
. のデフォルト値 HLL_precision
は17で、これは効果的に96KiBのスペース(2^17セル、6ビットそれぞれ)です。
戻り値
- を番号 UInt64-タイプ番号。
実装の詳細
機能:
-
ハッシュを計算します(64ビットのハッシュ
String
それ以外の場合は32ビット)は、集計内のすべてのパラメータに対して、それを計算に使用します。 -
配列、ハッシュテーブル、およびhyperloglogとエラー修正テーブルの組み合わせを使用します。
For a small number of distinct elements, an array is used. When the set size is larger, a hash table is used. For a larger number of elements, HyperLogLog is used, which will occupy a fixed amount of memory.
-
結果を確定的に提供します(クエリ処理の順序に依存しません)。
!!! note "メモ"
それは32ビットハッシュを使用しているので-String
タイプすると、結果はカーディナリティのエラーが非常に大きくなります UINT_MAX
(エラーは数十億の異なる値の後にすぐに発生します)、この場合は次のようにしてください uniqCombined64
に比べて uniq 機能、を uniqCombined
:
- 数回少ないメモリを消費します。
- 数倍高い精度で計算します。
- 通常は若干低い性能を持っています。 一部のシナリオでは,
uniqCombined
より良い実行できるuniq
たとえば、ネットワークを介して多数の集約状態を送信する分散クエリを使用します。
また見なさい
uniqCombined64
と同じ uniqCombined ただし、すべてのデータ型に64ビットハッシュを使用します。
unihll12
を使用して、異なる引数値のおおよその数を計算します ハイパーログ アルゴリズムだ
uniqHLL12(x[, ...])
パラメータ
この関数は、可変個のパラメータを受け取ります。 変数は Tuple
, Array
, Date
, DateTime
, String
、または数値型。
戻り値
- A UInt64-タイプ番号。
実装の詳細
機能:
-
集計内のすべてのパラメータのハッシュを計算し、それを計算に使用します。
-
HyperLogLogアルゴリズムを使用して、異なる引数値の数を近似します。
212 5-bit cells are used. The size of the state is slightly more than 2.5 KB. The result is not very accurate (up to ~10% error) for small data sets (<10K elements). However, the result is fairly accurate for high-cardinality data sets (10K-100M), with a maximum error of ~1.6%. Starting from 100M, the estimation error increases, and the function will return very inaccurate results for data sets with extremely high cardinality (1B+ elements).
-
確定的な結果を提供します(クエリ処理の順序に依存しません)。
この機能を使用することはお勧めしません。 ほとんどの場合、 uniq または uniqCombined 機能。
また見なさい
ユニキャック
異なる引数値の正確な数を計算します。
uniqExact(x[, ...])
を使用 uniqExact
機能あなたは絶対に正確な結果が必要な場合。 それ以外の場合は、 uniq 機能。
その uniqExact
機能の使用ます。 uniq
、状態のサイズは、異なる値の数が増加するにつれて無制限の成長を有するからである。
パラメータ
この関数は、可変個のパラメータを受け取ります。 変数は Tuple
, Array
, Date
, DateTime
, String
、または数値型。
また見なさい
groupArray(x),groupArray(max_size)(x)
引数の値の配列を作成します。 値は、任意の(不確定な)順序で配列に追加できます。
第二のバージョン( max_size
パラメータ)結果の配列のサイズを次のように制限します max_size
要素。
例えば, groupArray (1) (x)
に相当します [any (x)]
.
場合によっては、実行の順序に依拠することもできます。 これは、次の場合に適用されます SELECT
使用するサブクエリーから取得されます ORDER BY
.
groupArrayInsertAt(値、位置)
指定した位置の配列に値を挿入します。
!!! note "メモ" この関数はゼロベースの位置を使用します。
Accepts the value and position as input. If several values are inserted into the same position, any of them might end up in the resulting array (the first one will be used in the case of single-threaded execution). If no value is inserted into a position, the position is assigned the default value.
任意変数:
- 空の位置に置き換えるためのデフォルト値。
- 結果の配列の長さ。 これにより、すべての集約キーで同じサイズの配列を受け取ることができます。 このパラメーターを使用する場合は、既定値を指定する必要があります。
グルーパーレイモビングサムcity in new mexico usa
入力値の移動和を計算します。
groupArrayMovingSum(numbers_for_summing)
groupArrayMovingSum(window_size)(numbers_for_summing)
この機能できるウィンドウサイズとしてのパラメータとします。 指定しない場合、この関数は、列の行数と同じウィンドウサイズをとります。
パラメータ
numbers_for_summing
— 式 その結果、数値データ型の値が返されます。window_size
— Size of the calculation window.
戻り値
- 入力データと同じサイズおよびタイプの配列。
例えば
サンプルテーブル:
CREATE TABLE t
(
`int` UInt8,
`float` Float32,
`dec` Decimal32(2)
)
ENGINE = TinyLog
┌─int─┬─float─┬──dec─┐
│ 1 │ 1.1 │ 1.10 │
│ 2 │ 2.2 │ 2.20 │
│ 4 │ 4.4 │ 4.40 │
│ 7 │ 7.77 │ 7.77 │
└─────┴───────┴──────┘
クエリ:
SELECT
groupArrayMovingSum(int) AS I,
groupArrayMovingSum(float) AS F,
groupArrayMovingSum(dec) AS D
FROM t
┌─I──────────┬─F───────────────────────────────┬─D──────────────────────┐
│ [1,3,7,14] │ [1.1,3.3000002,7.7000003,15.47] │ [1.10,3.30,7.70,15.47] │
└────────────┴─────────────────────────────────┴────────────────────────┘
SELECT
groupArrayMovingSum(2)(int) AS I,
groupArrayMovingSum(2)(float) AS F,
groupArrayMovingSum(2)(dec) AS D
FROM t
┌─I──────────┬─F───────────────────────────────┬─D──────────────────────┐
│ [1,3,6,11] │ [1.1,3.3000002,6.6000004,12.17] │ [1.10,3.30,6.60,12.17] │
└────────────┴─────────────────────────────────┴────────────────────────┘
groupparraymovingavg
入力値の移動平均を計算します。
groupArrayMovingAvg(numbers_for_summing)
groupArrayMovingAvg(window_size)(numbers_for_summing)
この機能できるウィンドウサイズとしてのパラメータとします。 指定しない場合、この関数は、列の行数と同じウィンドウサイズをとります。
パラメータ
numbers_for_summing
— 式 その結果、数値データ型の値が返されます。window_size
— Size of the calculation window.
戻り値
- 入力データと同じサイズおよびタイプの配列。
この関数は ゼロに向かって丸め. 結果のデータ型の小数点以下の桁を切り捨てます。
例えば
サンプルテーブル b
:
CREATE TABLE t
(
`int` UInt8,
`float` Float32,
`dec` Decimal32(2)
)
ENGINE = TinyLog
┌─int─┬─float─┬──dec─┐
│ 1 │ 1.1 │ 1.10 │
│ 2 │ 2.2 │ 2.20 │
│ 4 │ 4.4 │ 4.40 │
│ 7 │ 7.77 │ 7.77 │
└─────┴───────┴──────┘
クエリ:
SELECT
groupArrayMovingAvg(int) AS I,
groupArrayMovingAvg(float) AS F,
groupArrayMovingAvg(dec) AS D
FROM t
┌─I─────────┬─F───────────────────────────────────┬─D─────────────────────┐
│ [0,0,1,3] │ [0.275,0.82500005,1.9250001,3.8675] │ [0.27,0.82,1.92,3.86] │
└───────────┴─────────────────────────────────────┴───────────────────────┘
SELECT
groupArrayMovingAvg(2)(int) AS I,
groupArrayMovingAvg(2)(float) AS F,
groupArrayMovingAvg(2)(dec) AS D
FROM t
┌─I─────────┬─F────────────────────────────────┬─D─────────────────────┐
│ [0,1,3,5] │ [0.55,1.6500001,3.3000002,6.085] │ [0.55,1.65,3.30,6.08] │
└───────────┴──────────────────────────────────┴───────────────────────┘
groupUniqArray(x),groupUniqArray(max_size)(x)
異なる引数値から配列を作成します。 メモリ消費量は、 uniqExact
機能。
第二のバージョン( max_size
パラメータ)結果の配列のサイズを次のように制限します max_size
要素。
例えば, groupUniqArray(1)(x)
に相当します [any(x)]
.
分位値
近似値を計算します 分位値 数値データシーケンス。
この関数が適用されます 貯蔵所の見本抽出 8192までの貯蔵所のサイズおよび見本抽出のための乱数発電機を使って。 結果は非決定的です。 正確な分位値を取得するには、以下を使用します quantileExact 機能。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantile(level)(expr)
エイリアス: median
.
パラメータ
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値.expr
— Expression over the column values resulting in numeric データ型, 日付 または DateTime.
戻り値
- 指定したレベルの概算値。
タイプ:
例えば
入力テーブル:
┌─val─┐
│ 1 │
│ 1 │
│ 2 │
│ 3 │
└─────┘
クエリ:
SELECT quantile(val) FROM t
結果:
┌─quantile(val)─┐
│ 1.5 │
└───────────────┘
また見なさい
quantiedeterministic
近似値を計算します 分位値 数値データシーケンス。
この関数が適用されます 貯蔵所の見本抽出 8192までの貯蔵所のサイズおよび見本抽出の決定論のアルゴリズムを使って。 結果は決定的です。 正確な分位値を取得するには、以下を使用します quantileExact 機能。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileDeterministic(level)(expr, determinator)
エイリアス: medianDeterministic
.
パラメータ
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値.expr
— Expression over the column values resulting in numeric データ型, 日付 または DateTime.determinator
— Number whose hash is used instead of a random number generator in the reservoir sampling algorithm to make the result of sampling deterministic. As a determinator you can use any deterministic positive number, for example, a user id or an event id. If the same determinator value occures too often, the function works incorrectly.
戻り値
- 指定したレベルの概算値。
タイプ:
例えば
入力テーブル:
┌─val─┐
│ 1 │
│ 1 │
│ 2 │
│ 3 │
└─────┘
クエリ:
SELECT quantileDeterministic(val, 1) FROM t
結果:
┌─quantileDeterministic(val, 1)─┐
│ 1.5 │
└───────────────────────────────┘
また見なさい
quantileExact
正確に計算する 分位値 数値データシーケンス。
To get exact value, all the passed values are combined into an array, which is then partially sorted. Therefore, the function consumes O(n)
メモリ、どこ n
渡された値の数です。 しかし、少数の値の場合、関数は非常に効果的です。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileExact(level)(expr)
エイリアス: medianExact
.
パラメータ
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値.expr
— Expression over the column values resulting in numeric データ型, 日付 または DateTime.
戻り値
- 指定されたレベルの分位値。
タイプ:
例えば
クエリ:
SELECT quantileExact(number) FROM numbers(10)
結果:
┌─quantileExact(number)─┐
│ 5 │
└───────────────────────┘
また見なさい
quantileExactWeighted
正確に計算する 分位値 各要素の重みを考慮した数値データシーケンス。
To get exact value, all the passed values are combined into an array, which is then partially sorted. Each value is counted with its weight, as if it is present weight
times. A hash table is used in the algorithm. Because of this, if the passed values are frequently repeated, the function consumes less RAM than quantileExact. この関数は、次の代わりに使用できます quantileExact
そして、重み1を指定します。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileExactWeighted(level)(expr, weight)
エイリアス: medianExactWeighted
.
パラメータ
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値.expr
— Expression over the column values resulting in numeric データ型, 日付 または DateTime.weight
— Column with weights of sequence members. Weight is a number of value occurrences.
戻り値
- 指定されたレベルの分位値。
タイプ:
例えば
入力テーブル:
┌─n─┬─val─┐
│ 0 │ 3 │
│ 1 │ 2 │
│ 2 │ 1 │
│ 5 │ 4 │
└───┴─────┘
クエリ:
SELECT quantileExactWeighted(n, val) FROM t
結果:
┌─quantileExactWeighted(n, val)─┐
│ 1 │
└───────────────────────────────┘
また見なさい
クオンタイミング
決定された精度では、 分位値 数値データシーケンス。
結果は決定的です(クエリ処理の順序に依存しません)。 この機能を最適化と配列における分布のような積載ウェブページではバックエンド対応。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileTiming(level)(expr)
エイリアス: medianTiming
.
パラメータ
-
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値. -
expr
— 式 aを返す列の値を超える フロート*-タイプ番号。- If negative values are passed to the function, the behavior is undefined. - If the value is greater than 30,000 (a page loading time of more than 30 seconds), it is assumed to be 30,000.
精度
計算は次の場合に正確です:
- 値の総数は5670を超えません。
- 値の総数は5670を超えていますが、ページの読み込み時間は1024ms未満です。
それ以外の場合、計算の結果は16msの最も近い倍数に丸められます。
!!! note "メモ" ページの読み込み時間の分位数を計算するために、この関数はより効果的で正確です 分位値.
戻り値
- 指定されたレベルの分位値。
タイプ: Float32
.
!!! note "メモ"
関数に値が渡されない場合(以下を使用する場合 quantileTimingIf
), ナン 返されます。 この目的は、これらのケースをゼロになるケースと区別することです。 見る ORDER BY句 ソートに関する注意事項 NaN
値。
例えば
入力テーブル:
┌─response_time─┐
│ 72 │
│ 112 │
│ 126 │
│ 145 │
│ 104 │
│ 242 │
│ 313 │
│ 168 │
│ 108 │
└───────────────┘
クエリ:
SELECT quantileTiming(response_time) FROM t
結果:
┌─quantileTiming(response_time)─┐
│ 126 │
└───────────────────────────────┘
また見なさい
quantitimingweighted
決定された精度では、 分位値 各シーケンスメンバの重みに応じた数値データシーケンス。
結果は決定的です(クエリ処理の順序に依存しません)。 この機能を最適化と配列における分布のような積載ウェブページではバックエンド対応。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileTimingWeighted(level)(expr, weight)
エイリアス: medianTimingWeighted
.
パラメータ
-
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値. -
expr
— 式 aを返す列の値を超える フロート*-タイプ番号。- If negative values are passed to the function, the behavior is undefined. - If the value is greater than 30,000 (a page loading time of more than 30 seconds), it is assumed to be 30,000.
-
weight
— Column with weights of sequence elements. Weight is a number of value occurrences.
精度
計算は次の場合に正確です:
- 値の総数は5670を超えません。
- 値の総数は5670を超えていますが、ページの読み込み時間は1024ms未満です。
それ以外の場合、計算の結果は16msの最も近い倍数に丸められます。
!!! note "メモ" ページの読み込み時間の分位数を計算するために、この関数はより効果的で正確です 分位値.
戻り値
- 指定されたレベルの分位値。
タイプ: Float32
.
!!! note "メモ"
関数に値が渡されない場合(以下を使用する場合 quantileTimingIf
), ナン 返されます。 この目的は、これらのケースをゼロになるケースと区別することです。 見る ORDER BY句 ソートに関する注意事項 NaN
値。
例えば
入力テーブル:
┌─response_time─┬─weight─┐
│ 68 │ 1 │
│ 104 │ 2 │
│ 112 │ 3 │
│ 126 │ 2 │
│ 138 │ 1 │
│ 162 │ 1 │
└───────────────┴────────┘
クエリ:
SELECT quantileTimingWeighted(response_time, weight) FROM t
結果:
┌─quantileTimingWeighted(response_time, weight)─┐
│ 112 │
└───────────────────────────────────────────────┘
また見なさい
quantiletdigestcomment
近似値を計算します 分位値 を使用する数値データシーケンスの t-ダイジェスト アルゴリズムだ
最大誤差は1%です。 メモリ消費量は log(n)
、どこ n
値の数です。 結果は、クエリの実行順序によって異なり、非決定的です。
機能の性能は性能より低いですの 分位値 または クオンタイミング. 状態サイズと精度の比に関しては、この関数はよりもはるかに優れています quantile
.
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileTDigest(level)(expr)
エイリアス: medianTDigest
.
パラメータ
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値.expr
— Expression over the column values resulting in numeric データ型, 日付 または DateTime.
戻り値
- 指定したレベルの概算値。
タイプ:
例えば
クエリ:
SELECT quantileTDigest(number) FROM numbers(10)
結果:
┌─quantileTDigest(number)─┐
│ 4.5 │
└─────────────────────────┘
また見なさい
quantileTDigestWeighted
近似値を計算します 分位値 を使用する数値データシーケンスの t-ダイジェスト アルゴリズムだ この関数は、各シーケンスメンバーの重みを考慮に入れます。 最大誤差は1%です。 メモリ消費量は log(n)
、どこ n
値の数です。
機能の性能は性能より低いですの 分位値 または クオンタイミング. 状態サイズと精度の比に関しては、この関数はよりもはるかに優れています quantile
.
結果は、クエリの実行順序によって異なり、非決定的です。
複数を使用する場合 quantile*
クエリの異なるレベルを持つ関数は、内部状態が結合されていません(つまり、クエリはそれほど効率的ではありません)。 この場合は、 分位数 機能。
構文
quantileTDigest(level)(expr)
エイリアス: medianTDigest
.
パラメータ
level
— Level of quantile. Optional parameter. Constant floating-point number from 0 to 1. We recommend using alevel
の範囲内の値[0.01, 0.99]
. デフォルト値:0.5. でlevel=0.5
機能は計算する 中央値.expr
— Expression over the column values resulting in numeric データ型, 日付 または DateTime.weight
— Column with weights of sequence elements. Weight is a number of value occurrences.
戻り値
- 指定したレベルの概算値。
タイプ:
例えば
クエリ:
SELECT quantileTDigestWeighted(number, 1) FROM numbers(10)
結果:
┌─quantileTDigestWeighted(number, 1)─┐
│ 4.5 │
└────────────────────────────────────┘
また見なさい
中央値
その median*
関数は、対応する関数のエイリアスです quantile*
機能。 数値データサンプルの中央値を計算します。
機能:
median
— Alias for 分位値.medianDeterministic
— Alias for quantiedeterministic.medianExact
— Alias for quantileExact.medianExactWeighted
— Alias for quantileExactWeighted.medianTiming
— Alias for クオンタイミング.medianTimingWeighted
— Alias for quantitimingweighted.medianTDigest
— Alias for quantiletdigestcomment.medianTDigestWeighted
— Alias for quantileTDigestWeighted.
例えば
入力テーブル:
┌─val─┐
│ 1 │
│ 1 │
│ 2 │
│ 3 │
└─────┘
クエリ:
SELECT medianDeterministic(val, 1) FROM t
結果:
┌─medianDeterministic(val, 1)─┐
│ 1.5 │
└─────────────────────────────┘
quantiles(level1, level2, …)(x)
すべての分位数関数には、対応する分位数関数もあります: quantiles
, quantilesDeterministic
, quantilesTiming
, quantilesTimingWeighted
, quantilesExact
, quantilesExactWeighted
, quantilesTDigest
. これらの関数は、あるパスでリストされたレベルのすべての分位数を計算し、結果の値の配列を返します。
varSamp(x)
金額を計算します Σ((x - x̅)^2) / (n - 1)
、どこ n
サンプルサイズは x̅
の平均値です x
.
これは、渡された値がそのサンプルを形成する場合、確率変数の分散の不偏推定値を表します。
を返します Float64
. とき n <= 1
、戻り値 +∞
.
varPop(x)
金額を計算します Σ((x - x̅)^2) / n
、どこ n
サンプルサイズは x̅
の平均値です x
.
つまり、値のセットの分散。 を返します Float64
.
stddevSamp(x)
結果はの平方根に等しい varSamp(x)
.
stddevPop(x)
結果はの平方根に等しい varPop(x)
.
topK(N)(x)
指定された列のほぼ最も頻繁に使用される値の配列を返します。 結果の配列は、値のおおよその頻度の降順でソートされます(値そのものではありません)。
実装する ろ過されたスペース節約 からのreduce-and-combineアルゴリズムに基づいてTopKを分析するアルゴリズム パラレル省スペース.
topK(N)(column)
この関数は保証された結果を提供しません。 特定の状況では、エラーが発生し、最も頻度の高い値ではない頻繁な値が返されることがあります。
私達は使用を推薦します N < 10
価値;性能は大きいと減ります N
値。 の最大値 N = 65536
.
パラメータ
- ‘N’ 返す要素の数です。
パラメーターを省略すると、既定値10が使用されます。
引数
- ' x ' – The value to calculate frequency.
例えば
を取る オンタイム データセットを選択し、最も頻繁に発生する三つの値を選択します。 AirlineID
コラム
SELECT topK(3)(AirlineID) AS res
FROM ontime
┌─res─────────────────┐
│ [19393,19790,19805] │
└─────────────────────┘
トップクイット
に似て topK
しかし、整数型の一つの追加の引数を取ります - weight
. あらゆる価値は説明されます weight
頻度計算のための時間。
構文
topKWeighted(N)(x, weight)
パラメータ
N
— The number of elements to return.
引数
x
– The value.weight
— The weight. UInt8.
戻り値
最大およその重みの合計を持つ値の配列を返します。
例えば
クエリ:
SELECT topKWeighted(10)(number, number) FROM numbers(1000)
結果:
┌─topKWeighted(10)(number, number)──────────┐
│ [999,998,997,996,995,994,993,992,991,990] │
└───────────────────────────────────────────┘
covarSamp(x,y)
の値を計算します Σ((x - x̅)(y - y̅)) / (n - 1)
.
Float64を返します。 とき n <= 1
, returns +∞.
covarPop(x,y)
の値を計算します Σ((x - x̅)(y - y̅)) / n
.
corr(x,y)
ピアソン相関係数を計算します: Σ((x - x̅)(y - y̅)) / sqrt(Σ((x - x̅)^2) * Σ((y - y̅)^2))
.
categoricalInformationValue
の値を計算します (P(tag = 1) - P(tag = 0))(log(P(tag = 1)) - log(P(tag = 0)))
各カテゴリの。
categoricalInformationValue(category1, category2, ..., tag)
結果は、離散(カテゴリカル)フィーチャがどのようにして [category1, category2, ...]
の値を予測する学習モデルに貢献する tag
.
simplelearregression
単純な(一次元的な)線形回帰を実行します。
simpleLinearRegression(x, y)
パラメータ:
x
— Column with dependent variable values.y
— Column with explanatory variable values.
戻り値:
定数 (a, b)
結果の行の y = a*x + b
.
例
SELECT arrayReduce('simpleLinearRegression', [0, 1, 2, 3], [0, 1, 2, 3])
┌─arrayReduce('simpleLinearRegression', [0, 1, 2, 3], [0, 1, 2, 3])─┐
│ (1,0) │
└───────────────────────────────────────────────────────────────────┘
SELECT arrayReduce('simpleLinearRegression', [0, 1, 2, 3], [3, 4, 5, 6])
┌─arrayReduce('simpleLinearRegression', [0, 1, 2, 3], [3, 4, 5, 6])─┐
│ (1,3) │
└───────────────────────────────────────────────────────────────────┘
stochasticLinearRegression
この関数は、確率的線形回帰を実装します。 それは率、l2正則化係数、ミニバッチサイズを学ぶための注文変数を支え、重量を更新するための少数の方法を有する (アダム (デフォルトで使用), シンプルSGD, 勢い, ネステロフ).
パラメータ
が4カスタマイズ可能パラメータ。 それらは関数に順番に渡されますが、すべての四つのデフォルト値を渡す必要はありませんが、良いモデルにはいくつかのパラメータ調整が必要で
stochasticLinearRegression(1.0, 1.0, 10, 'SGD')
learning rate
勾配降下ステップが実行されるときのステップ長の係数です。 大きすぎる学習率の原因となり無限の量のモデルです。 デフォルトは0.00001
.l2 regularization coefficient
これは過食防止に役立つ可能性があります。 デフォルトは0.1
.mini-batch size
グラデーションディセントのステップを実行するために、グラデーションを計算して合計する要素の数を設定します。 純粋な確率降下は一つの要素を使用しますが、小さなバッチ(約10の要素)を持つことで勾配ステップがより安定します。 デフォルトは15
.method for updating weights
、彼らは:Adam
(デフォルトでは),SGD
,Momentum
,Nesterov
.Momentum
とNesterov
もう少し計算とメモリが必要ですが、確率勾配法の収束と安定性の点で有用です。
使い方
stochasticLinearRegression
モデルのフィッティングと新しいデータの予測です。 モデルを適合させ、後で使用するためにその状態を保存するために、 -State
基本的に状態(モデルの重みなど)を保存するcombinator。
予測するには、関数を使用します evalMLMethod これは、状態を予測する機能と同様に引数として取ります。
1. 継手
このようなクエリを使用できます。
CREATE TABLE IF NOT EXISTS train_data
(
param1 Float64,
param2 Float64,
target Float64
) ENGINE = Memory;
CREATE TABLE your_model ENGINE = Memory AS SELECT
stochasticLinearRegressionState(0.1, 0.0, 5, 'SGD')(target, param1, param2)
AS state FROM train_data;
ここでは、データを挿入する必要もあります train_data
テーブル。 パラメータの数は固定されていません。 linearRegressionState
. 彼らはすべての必要数値です。
ターゲット値(予測することを学びたい)を持つ列が最初の引数として挿入されることに注意してください。
2. 予測
状態をテーブルに保存した後、予測に複数回使用したり、他の状態とマージして新しいモデルを作成したりすることもできます。
WITH (SELECT state FROM your_model) AS model SELECT
evalMLMethod(model, param1, param2) FROM test_data
クエリは予測値の列を返します。 その最初の引数に注意してください evalMLMethod
は AggregateFunctionState
オブジェクト、次はフィーチャの列です。
test_data
のようなテーブルです train_data
が含まれないことがあります。
備考
-
統合モデルにはユーザーの作成などのクエリ:
sql SELECT state1 + state2 FROM your_models
どこにyour_models
テーブルの両方のモデルです。 このクエリはnewを返しますAggregateFunctionState
オブジェクト。 -
ユーザーのフェッチのウエイトを作成したモデルとして独自の目的で保存しないモデルについていない場合
-State
combinatorが使用されます。sql SELECT stochasticLinearRegression(0.01)(target, param1, param2) FROM train_data
そのようなクエリはモデルに適合し、その重みを返します-最初はモデルのパラメータに対応する重みです。 したがって、上記の例では、クエリは3つの値を持つ列を返します。
また見なさい
stochasticLogisticRegression
この関数は、確率論的ロジスティック回帰を実装します。 これは、バイナリ分類問題に使用することができ、stochasticlinearregressionと同じカスタムパラメータをサポートし、同じ方法で動作します。
パラメータ
パラメーターは、stochasticlinearregressionとまったく同じです:
learning rate
, l2 regularization coefficient
, mini-batch size
, method for updating weights
.
詳細については、 パラメータ.
stochasticLogisticRegression(1.0, 1.0, 10, 'SGD')
- 継手
See the `Fitting` section in the [stochasticLinearRegression](#stochasticlinearregression-usage-fitting) description.
Predicted labels have to be in \[-1, 1\].
- 予測
Using saved state we can predict probability of object having label `1`.
``` sql
WITH (SELECT state FROM your_model) AS model SELECT
evalMLMethod(model, param1, param2) FROM test_data
```
The query will return a column of probabilities. Note that first argument of `evalMLMethod` is `AggregateFunctionState` object, next are columns of features.
We can also set a bound of probability, which assigns elements to different labels.
``` sql
SELECT ans < 1.1 AND ans > 0.5 FROM
(WITH (SELECT state FROM your_model) AS model SELECT
evalMLMethod(model, param1, param2) AS ans FROM test_data)
```
Then the result will be labels.
`test_data` is a table like `train_data` but may not contain target value.
また見なさい
groupbitmapandgenericname
ビットマップ列のandを計算し、型uint64のカーディナリティを返します。 ビットマップ.
groupBitmapAnd(expr)
パラメータ
expr
– An expression that results in AggregateFunction(groupBitmap, UInt*)
タイプ。
戻り値
の値 UInt64
タイプ。
例えば
DROP TABLE IF EXISTS bitmap_column_expr_test2;
CREATE TABLE bitmap_column_expr_test2
(
tag_id String,
z AggregateFunction(groupBitmap, UInt32)
)
ENGINE = MergeTree
ORDER BY tag_id;
INSERT INTO bitmap_column_expr_test2 VALUES ('tag1', bitmapBuild(cast([1,2,3,4,5,6,7,8,9,10] as Array(UInt32))));
INSERT INTO bitmap_column_expr_test2 VALUES ('tag2', bitmapBuild(cast([6,7,8,9,10,11,12,13,14,15] as Array(UInt32))));
INSERT INTO bitmap_column_expr_test2 VALUES ('tag3', bitmapBuild(cast([2,4,6,8,10,12] as Array(UInt32))));
SELECT groupBitmapAnd(z) FROM bitmap_column_expr_test2 WHERE like(tag_id, 'tag%');
┌─groupBitmapAnd(z)─┐
│ 3 │
└───────────────────┘
SELECT arraySort(bitmapToArray(groupBitmapAndState(z))) FROM bitmap_column_expr_test2 WHERE like(tag_id, 'tag%');
┌─arraySort(bitmapToArray(groupBitmapAndState(z)))─┐
│ [6,8,10] │
└──────────────────────────────────────────────────┘
groupBitmapOr
ビットマップ列のorを計算し、型uint64のカーディナリティを返します。 ビットマップ. これは groupBitmapMerge
.
groupBitmapOr(expr)
パラメータ
expr
– An expression that results in AggregateFunction(groupBitmap, UInt*)
タイプ。
戻り値
の値 UInt64
タイプ。
例えば
DROP TABLE IF EXISTS bitmap_column_expr_test2;
CREATE TABLE bitmap_column_expr_test2
(
tag_id String,
z AggregateFunction(groupBitmap, UInt32)
)
ENGINE = MergeTree
ORDER BY tag_id;
INSERT INTO bitmap_column_expr_test2 VALUES ('tag1', bitmapBuild(cast([1,2,3,4,5,6,7,8,9,10] as Array(UInt32))));
INSERT INTO bitmap_column_expr_test2 VALUES ('tag2', bitmapBuild(cast([6,7,8,9,10,11,12,13,14,15] as Array(UInt32))));
INSERT INTO bitmap_column_expr_test2 VALUES ('tag3', bitmapBuild(cast([2,4,6,8,10,12] as Array(UInt32))));
SELECT groupBitmapOr(z) FROM bitmap_column_expr_test2 WHERE like(tag_id, 'tag%');
┌─groupBitmapOr(z)─┐
│ 15 │
└──────────────────┘
SELECT arraySort(bitmapToArray(groupBitmapOrState(z))) FROM bitmap_column_expr_test2 WHERE like(tag_id, 'tag%');
┌─arraySort(bitmapToArray(groupBitmapOrState(z)))─┐
│ [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15] │
└─────────────────────────────────────────────────┘
groupBitmapXor
ビットマップ列のxorを計算し、uint64型のカーディナリティを返します。 ビットマップ.
groupBitmapOr(expr)
パラメータ
expr
– An expression that results in AggregateFunction(groupBitmap, UInt*)
タイプ。
戻り値
の値 UInt64
タイプ。
例えば
DROP TABLE IF EXISTS bitmap_column_expr_test2;
CREATE TABLE bitmap_column_expr_test2
(
tag_id String,
z AggregateFunction(groupBitmap, UInt32)
)
ENGINE = MergeTree
ORDER BY tag_id;
INSERT INTO bitmap_column_expr_test2 VALUES ('tag1', bitmapBuild(cast([1,2,3,4,5,6,7,8,9,10] as Array(UInt32))));
INSERT INTO bitmap_column_expr_test2 VALUES ('tag2', bitmapBuild(cast([6,7,8,9,10,11,12,13,14,15] as Array(UInt32))));
INSERT INTO bitmap_column_expr_test2 VALUES ('tag3', bitmapBuild(cast([2,4,6,8,10,12] as Array(UInt32))));
SELECT groupBitmapXor(z) FROM bitmap_column_expr_test2 WHERE like(tag_id, 'tag%');
┌─groupBitmapXor(z)─┐
│ 10 │
└───────────────────┘
SELECT arraySort(bitmapToArray(groupBitmapXorState(z))) FROM bitmap_column_expr_test2 WHERE like(tag_id, 'tag%');
┌─arraySort(bitmapToArray(groupBitmapXorState(z)))─┐
│ [1,3,5,6,8,10,11,13,14,15] │
└──────────────────────────────────────────────────┘