2021-02-02 12:00:41 +00:00
|
|
|
|
---
|
|
|
|
|
toc_priority: 108
|
|
|
|
|
---
|
|
|
|
|
|
|
|
|
|
# topK {#topk}
|
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
返回指定列中近似最常见值的数组。 生成的数组按值的近似频率降序排序(而不是值本身)。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
实现了[过滤节省空间](http://www.l2f.inesc-id.pt/~fmmb/wiki/uploads/Work/misnis.ref0a.pdf)算法, 使用基于reduce-and-combine的算法,借鉴[并行节省空间](https://arxiv.org/pdf/1401.0702.pdf)。
|
|
|
|
|
|
|
|
|
|
**语法**
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
|
|
|
|
``` sql
|
2021-03-07 14:18:15 +00:00
|
|
|
|
topK(N)(x)
|
2021-02-02 12:00:41 +00:00
|
|
|
|
```
|
2021-03-01 15:16:07 +00:00
|
|
|
|
此函数不提供保证的结果。 在某些情况下,可能会发生错误,并且可能会返回不是最高频的值。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
我们建议使用 `N < 10` 值,`N` 值越大,性能越低。最大值 `N = 65536`。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
**参数**
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-07 14:18:15 +00:00
|
|
|
|
- `N` — 要返回的元素数。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
如果省略该参数,则使用默认值10。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
**参数**
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-07 14:18:15 +00:00
|
|
|
|
- `x` – (要计算频次的)值。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
**示例**
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
2021-03-01 15:16:07 +00:00
|
|
|
|
就拿 [OnTime](../../../getting-started/example-datasets/ontime.md) 数据集来说,选择`AirlineID` 列中出现最频繁的三个。
|
2021-02-02 12:00:41 +00:00
|
|
|
|
|
|
|
|
|
``` sql
|
|
|
|
|
SELECT topK(3)(AirlineID) AS res
|
|
|
|
|
FROM ontime
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
``` text
|
|
|
|
|
┌─res─────────────────┐
|
|
|
|
|
│ [19393,19790,19805] │
|
|
|
|
|
└─────────────────────┘
|
|
|
|
|
```
|