ClickHouse/docs/ru/query_language/select.md

# SELECT запросы

`SELECT` осуществляет выборку данных.

```sql
SELECT [DISTINCT] expr_list
    [FROM [db.]table | (subquery) | table_function] [FINAL]
    [SAMPLE sample_coeff]
    [ARRAY JOIN ...]
    [GLOBAL] ANY|ALL INNER|LEFT JOIN (subquery)|table USING columns_list
    [PREWHERE expr]
    [WHERE expr]
    [GROUP BY expr_list] [WITH TOTALS]
    [HAVING expr]
    [ORDER BY expr_list]
    [LIMIT [n, ]m]
    [UNION ALL ...]
    [INTO OUTFILE filename]
    [FORMAT format]
    [LIMIT n BY columns]
```

Все секции, кроме списка выражений сразу после SELECT, являются необязательными.
Ниже секции будут описаны в порядке, почти соответствующем конвейеру выполнения запроса.

Если в запросе отсутствуют секции `DISTINCT`, `GROUP BY`, `ORDER BY`, подзапросы в `IN` и `JOIN`, то запрос будет обработан полностью потоково, с использованием O(1) количества оперативки.
Иначе запрос может съесть много оперативки, если не указаны подходящие ограничения `max_memory_usage`, `max_rows_to_group_by`, `max_rows_to_sort`, `max_rows_in_distinct`, `max_bytes_in_distinct`, `max_rows_in_set`, `max_bytes_in_set`, `max_rows_in_join`, `max_bytes_in_join`, `max_bytes_before_external_sort`, `max_bytes_before_external_group_by`. Подробнее смотрите в разделе "Настройки". Присутствует возможность использовать внешнюю сортировку (с сохранением временных данных на диск) и внешнюю агрегацию. `Merge join` в системе нет.

### Секция FROM

Если секция FROM отсутствует, то данные будут читаться из таблицы `system.one`.
Таблица system.one содержит ровно одну строку (то есть, эта таблица выполняет такую же роль, как таблица DUAL, которую можно найти в других СУБД).

В секции FROM указывается таблица, из которой будут читаться данные, либо подзапрос, либо табличная функция; дополнительно могут присутствовать ARRAY JOIN и обычный JOIN (смотрите ниже).

Вместо таблицы, может быть указан подзапрос SELECT в скобках.
В этом случае, конвейер обработки подзапроса будет встроен в конвейер обработки внешнего запроса.
В отличие от стандартного SQL, после подзапроса не нужно указывать его синоним. Для совместимости, присутствует возможность написать AS name после подзапроса, но указанное имя нигде не используется.

Вместо таблицы, может быть указана табличная функция. Подробнее смотрите раздел "Табличные функции".

Для выполнения запроса, из соответствующей таблицы, вынимаются все столбцы, перечисленные в запросе. Из подзапросов выкидываются столбцы, не нужные для внешнего запроса.
Если в запросе не перечислено ни одного столбца (например, SELECT count() FROM t), то из таблицы всё равно вынимается один какой-нибудь столбец (предпочитается самый маленький), для того, чтобы можно было хотя бы посчитать количество строк.

Модификатор FINAL может быть использован только при SELECT-е из таблицы типа CollapsingMergeTree. При указании FINAL, данные будут выбираться полностью "сколлапсированными". Стоит учитывать, что использование FINAL приводит к выбору кроме указанных в SELECT-е столбцов также столбцов, относящихся к первичному ключу. Также, запрос будет выполняться в один поток, и при выполнении запроса будет выполняться слияние данных. Это приводит к тому, что при использовании FINAL, запрос выполняется медленнее. В большинстве случаев, следует избегать использования FINAL. Подробнее смотрите раздел "Движок CollapsingMergeTree".

### Секция SAMPLE

Секция SAMPLE позволяет выполнить запрос приближённо. Приближённое выполнение запроса поддерживается только таблицами типа MergeTree\* и только если при создании таблицы было указано выражение, по которому производится выборка (смотрите раздел "Движок MergeTree").

`SAMPLE` имеет вид `SAMPLE k`, где `k` - дробное число в интервале от 0 до 1, или `SAMPLE n`, где n - достаточно большое целое число.

В первом случае, запрос будет выполнен по k-доле данных. Например, если указано `SAMPLE 0.1`, то запрос будет выполнен по 10% данных.
Во втором случае, запрос будет выполнен по выборке из не более n строк. Например, если указано `SAMPLE 10000000`, то запрос будет выполнен по не более чем 10 000 000 строкам.

Пример:

```sql
SELECT
    Title,
    count() * 10 AS PageViews
FROM hits_distributed
SAMPLE 0.1
WHERE
    CounterID = 34
    AND toDate(EventDate) >= toDate('2013-01-29')
    AND toDate(EventDate) <= toDate('2013-02-04')
    AND NOT DontCountHits
    AND NOT Refresh
    AND Title != ''
GROUP BY Title
ORDER BY PageViews DESC LIMIT 1000
```

В этом примере, запрос выполняется по выборке из 0.1 (10%) данных. Значения агрегатных функций не корректируются автоматически, поэтому для получения приближённого результата, значение count() вручную домножается на 10.

При использовании варианта вида `SAMPLE 10000000`, нет информации, какая относительная доля данных была обработана, и на что следует домножить агрегатные функции, поэтому такой способ записи подходит не для всех случаев.

Выборка с указанием относительного коэффициента является "согласованной": если рассмотреть все возможные данные, которые могли бы быть в таблице, то выборка (при использовании одного выражения сэмплирования, указанного при создании таблицы), с одинаковым коэффициентом, выбирает всегда одно и то же подмножество этих всевозможных данных. То есть, выборка из разных таблиц, на разных серверах, в разное время, делается одинаковым образом.

Например, выборка по идентификаторам посетителей, выберет из разных таблиц строки с одинаковым подмножеством всех возможных идентификаторов посетителей. Это позволяет использовать выборку в подзапросах в секции IN, а также при ручном сопоставлении результатов разных запросов с выборками.

### Секция ARRAY JOIN

Позволяет выполнить JOIN с массивом или вложенной структурой данных. Смысл похож на функцию arrayJoin, но функциональность более широкая.

`ARRAY JOIN` - это, по сути, `INNER JOIN` с массивом. Пример:

```text
:) CREATE TABLE arrays_test (s String, arr Array(UInt8)) ENGINE = Memory

CREATE TABLE arrays_test
(
    s String,
    arr Array(UInt8)
) ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.001 sec.

:) INSERT INTO arrays_test VALUES ('Hello', [1,2]), ('World', [3,4,5]), ('Goodbye', [])

INSERT INTO arrays_test VALUES

Ok.

3 rows in set. Elapsed: 0.001 sec.

:) SELECT * FROM arrays_test

SELECT *
FROM arrays_test

┌─s───────┬─arr─────┐
│ Hello   │ [1,2]   │
│ World   │ [3,4,5] │
│ Goodbye │ []      │
└─────────┴─────────┘

3 rows in set. Elapsed: 0.001 sec.

:) SELECT s, arr FROM arrays_test ARRAY JOIN arr

SELECT s, arr
FROM arrays_test
ARRAY JOIN arr

┌─s─────┬─arr─┐
│ Hello │   1 │
│ Hello │   2 │
│ World │   3 │
│ World │   4 │
│ World │   5 │
└───────┴─────┘

5 rows in set. Elapsed: 0.001 sec.
```

Для массива в секции ARRAY JOIN может быть указан алиас. В этом случае, элемент массива будет доступен под этим алиасом, а сам массив - под исходным именем. Пример:

```text
:) SELECT s, arr, a FROM arrays_test ARRAY JOIN arr AS a

SELECT s, arr, a
FROM arrays_test
ARRAY JOIN arr AS a

┌─s─────┬─arr─────┬─a─┐
│ Hello │ [1,2]   │ 1 │
│ Hello │ [1,2]   │ 2 │
│ World │ [3,4,5] │ 3 │
│ World │ [3,4,5] │ 4 │
│ World │ [3,4,5] │ 5 │
└───────┴─────────┴───┘

5 rows in set. Elapsed: 0.001 sec.
```

В секции ARRAY JOIN может быть указано несколько массивов одинаковых размеров через запятую. В этом случае, JOIN делается с ними одновременно (прямая сумма, а не прямое произведение). Пример:

```text
:) SELECT s, arr, a, num, mapped FROM arrays_test ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num, arrayMap(x -> x + 1, arr) AS mapped

SELECT s, arr, a, num, mapped
FROM arrays_test
ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num, arrayMap(lambda(tuple(x), plus(x, 1)), arr) AS mapped

┌─s─────┬─arr─────┬─a─┬─num─┬─mapped─┐
│ Hello │ [1,2]   │ 1 │   1 │      2 │
│ Hello │ [1,2]   │ 2 │   2 │      3 │
│ World │ [3,4,5] │ 3 │   1 │      4 │
│ World │ [3,4,5] │ 4 │   2 │      5 │
│ World │ [3,4,5] │ 5 │   3 │      6 │
└───────┴─────────┴───┴─────┴────────┘

5 rows in set. Elapsed: 0.002 sec.

:) SELECT s, arr, a, num, arrayEnumerate(arr) FROM arrays_test ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num

SELECT s, arr, a, num, arrayEnumerate(arr)
FROM arrays_test
ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num

┌─s─────┬─arr─────┬─a─┬─num─┬─arrayEnumerate(arr)─┐
│ Hello │ [1,2]   │ 1 │   1 │ [1,2]               │
│ Hello │ [1,2]   │ 2 │   2 │ [1,2]               │
│ World │ [3,4,5] │ 3 │   1 │ [1,2,3]             │
│ World │ [3,4,5] │ 4 │   2 │ [1,2,3]             │
│ World │ [3,4,5] │ 5 │   3 │ [1,2,3]             │
└───────┴─────────┴───┴─────┴─────────────────────┘

5 rows in set. Elapsed: 0.002 sec.
```

ARRAY JOIN также работает с вложенными структурами данных. Пример:

```text
:) CREATE TABLE nested_test (s String, nest Nested(x UInt8, y UInt32)) ENGINE = Memory

CREATE TABLE nested_test
(
    s String,
    nest Nested(
    x UInt8,
    y UInt32)
) ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.006 sec.

:) INSERT INTO nested_test VALUES ('Hello', [1,2], [10,20]), ('World', [3,4,5], [30,40,50]), ('Goodbye', [], [])

INSERT INTO nested_test VALUES

Ok.

3 rows in set. Elapsed: 0.001 sec.

:) SELECT * FROM nested_test

SELECT *
FROM nested_test

┌─s───────┬─nest.x──┬─nest.y─────┐
│ Hello   │ [1,2]   │ [10,20]    │
│ World   │ [3,4,5] │ [30,40,50] │
│ Goodbye │ []      │ []         │
└─────────┴─────────┴────────────┘

3 rows in set. Elapsed: 0.001 sec.

:) SELECT s, nest.x, nest.y FROM nested_test ARRAY JOIN nest

SELECT s, `nest.x`, `nest.y`
FROM nested_test
ARRAY JOIN nest

┌─s─────┬─nest.x─┬─nest.y─┐
│ Hello │      1 │     10 │
│ Hello │      2 │     20 │
│ World │      3 │     30 │
│ World │      4 │     40 │
│ World │      5 │     50 │
└───────┴────────┴────────┘

5 rows in set. Elapsed: 0.001 sec.
```

При указании имени вложенной структуры данных в ARRAY JOIN, смысл такой же, как ARRAY JOIN со всеми элементами-массивами, из которых она состоит. Пример:

```text
:) SELECT s, nest.x, nest.y FROM nested_test ARRAY JOIN nest.x, nest.y

SELECT s, `nest.x`, `nest.y`
FROM nested_test
ARRAY JOIN `nest.x`, `nest.y`

┌─s─────┬─nest.x─┬─nest.y─┐
│ Hello │      1 │     10 │
│ Hello │      2 │     20 │
│ World │      3 │     30 │
│ World │      4 │     40 │
│ World │      5 │     50 │
└───────┴────────┴────────┘

5 rows in set. Elapsed: 0.001 sec.
```

Такой вариант тоже имеет смысл:

```text
:) SELECT s, nest.x, nest.y FROM nested_test ARRAY JOIN nest.x

SELECT s, `nest.x`, `nest.y`
FROM nested_test
ARRAY JOIN `nest.x`

┌─s─────┬─nest.x─┬─nest.y─────┐
│ Hello │      1 │ [10,20]    │
│ Hello │      2 │ [10,20]    │
│ World │      3 │ [30,40,50] │
│ World │      4 │ [30,40,50] │
│ World │      5 │ [30,40,50] │
└───────┴────────┴────────────┘

5 rows in set. Elapsed: 0.001 sec.
```

Алиас для вложенной структуры данных можно использовать, чтобы выбрать как результат JOIN-а, так и исходный массив. Пример:

```text
:) SELECT s, n.x, n.y, nest.x, nest.y FROM nested_test ARRAY JOIN nest AS n

SELECT s, `n.x`, `n.y`, `nest.x`, `nest.y`
FROM nested_test
ARRAY JOIN nest AS n

┌─s─────┬─n.x─┬─n.y─┬─nest.x──┬─nest.y─────┐
│ Hello │   1 │  10 │ [1,2]   │ [10,20]    │
│ Hello │   2 │  20 │ [1,2]   │ [10,20]    │
│ World │   3 │  30 │ [3,4,5] │ [30,40,50] │
│ World │   4 │  40 │ [3,4,5] │ [30,40,50] │
│ World │   5 │  50 │ [3,4,5] │ [30,40,50] │
└───────┴─────┴─────┴─────────┴────────────┘

5 rows in set. Elapsed: 0.001 sec.
```

Пример использования функции arrayEnumerate:

```text
:) SELECT s, n.x, n.y, nest.x, nest.y, num FROM nested_test ARRAY JOIN nest AS n, arrayEnumerate(nest.x) AS num

SELECT s, `n.x`, `n.y`, `nest.x`, `nest.y`, num
FROM nested_test
ARRAY JOIN nest AS n, arrayEnumerate(`nest.x`) AS num

┌─s─────┬─n.x─┬─n.y─┬─nest.x──┬─nest.y─────┬─num─┐
│ Hello │   1 │  10 │ [1,2]   │ [10,20]    │   1 │
│ Hello │   2 │  20 │ [1,2]   │ [10,20]    │   2 │
│ World │   3 │  30 │ [3,4,5] │ [30,40,50] │   1 │
│ World │   4 │  40 │ [3,4,5] │ [30,40,50] │   2 │
│ World │   5 │  50 │ [3,4,5] │ [30,40,50] │   3 │
└───────┴─────┴─────┴─────────┴────────────┴─────┘

5 rows in set. Elapsed: 0.002 sec.
```

В запросе может быть указано не более одной секции ARRAY JOIN.

Соответствующее преобразование может выполняться как до секции WHERE/PREWHERE (если его результат нужен в этой секции), так и после выполнения WHERE/PREWHERE (чтобы уменьшить объём вычислений).

### Секция JOIN

Обычный JOIN, не имеет отношения к ARRAY JOIN, который описан выше.

```sql
[GLOBAL] ANY|ALL INNER|LEFT [OUTER] JOIN (subquery)|table USING columns_list
```

Выполняет соединение с данными из подзапроса. В начале выполнения запроса, выполняется подзапрос, указанный после JOIN, и его результат сохраняется в память. Затем производится чтение из "левой" таблицы, указанной в секции FROM, и во время этого чтения, для каждой прочитанной строчки из "левой" таблицы, из таблицы-результата подзапроса ("правой" таблицы) выбираются строчки, соответствующие условию на совпадение значений столбцов, указанных в USING.

Вместо подзапроса может быть указано имя таблицы. Это эквивалентно подзапросу `SELECT * FROM table`, кроме особого случая, когда таблица имеет движок Join - подготовленное множество для соединения.

Из подзапроса удаляются все ненужные для JOIN-а столбцы.

JOIN-ы бывают нескольких видов:

`INNER` или `LEFT` - тип:
Если указано INNER, то в результат попадают только строки, для которых найдена соответствующая строка в "правой" таблице.
Если указано LEFT, то для строчек "левой" таблицы, для которых нет соответствующих в "правой" таблице, будут присоединены значения "по умолчанию" - нули, пустые строки. Вместо LEFT может быть написано LEFT OUTER - слово OUTER ни на что не влияет.

`ANY` или `ALL` - строгость:
Если указано `ANY`, то при наличии в "правой" таблице нескольких соответствующих строк, будет присоединена только первая попавшаяся.
Если указано `ALL`, то при наличии в "правой" таблице нескольких соответствующих строк, данные будут размножены по количеству этих строк.

Использование ALL соответствует обычной семантике JOIN-а из стандартного SQL.
Использование ANY является более оптимальным. Если известно, что в "правой" таблице есть не более одной подходящей строки, то результаты ANY и ALL совпадают. Обязательно необходимо указать ANY или ALL (ни один из этих вариантов не выбран по умолчанию).

`GLOBAL` - распределённость:

При использовании обычного JOIN-а, запрос отправляется на удалённые серверы, и на каждом из них выполняются подзапросы для формирования "правой" таблицы, и с этой таблицей выполняется соединение. То есть, "правая" таблица формируется на каждом сервере отдельно.

При использовании `GLOBAL ... JOIN-а`, сначала, на сервере-инициаторе запроса, выполняется подзапрос для вычисления "правой" таблицы, и затем эта временная таблица передаётся на каждый удалённый сервер, и на них выполняются запросы, с использованием этих переданных временных данных.

Следует быть аккуратным при использовании GLOBAL JOIN-ов. Подробнее читайте в разделе "Распределённые подзапросы" ниже.

Возможны все комбинации JOIN-ов. Например, `GLOBAL ANY LEFT OUTER JOIN`.

При выполнении JOIN-а отсутствует оптимизация порядка выполнения по отношению к другим стадиям запроса: соединение (поиск в "правой" таблице) выполняется до фильтрации в WHERE, до агрегации. Поэтому, чтобы явно задать порядок вычислений, рекомендуется выполнять JOIN подзапроса с подзапросом.

Пример:

```sql
SELECT
    CounterID,
    hits,
    visits
FROM
(
    SELECT
        CounterID,
        count() AS hits
    FROM test.hits
    GROUP BY CounterID
) ANY LEFT JOIN
(
    SELECT
        CounterID,
        sum(Sign) AS visits
    FROM test.visits
    GROUP BY CounterID
) USING CounterID
ORDER BY hits DESC
LIMIT 10
```

```text
┌─CounterID─┬───hits─┬─visits─┐
│   1143050 │ 523264 │  13665 │
│    731962 │ 475698 │ 102716 │
│    722545 │ 337212 │ 108187 │
│    722889 │ 252197 │  10547 │
│   2237260 │ 196036 │   9522 │
│  23057320 │ 147211 │   7689 │
│    722818 │  90109 │  17847 │
│     48221 │  85379 │   4652 │
│  19762435 │  77807 │   7026 │
│    722884 │  77492 │  11056 │
└───────────┴────────┴────────┘
```

У подзапросов нет возможности задать имена и нет возможности их использовать для того, чтобы сослаться на столбец из конкретного подзапроса.
Требуется, чтобы столбцы, указанные в USING, назывались одинаково в обоих подзапросах, а остальные столбцы - по-разному. Изменить имена столбцов в подзапросах можно с помощью алиасов (в примере используются алиасы hits и visits).

В секции USING указывается один или несколько столбцов для соединения, что обозначает условие на равенство этих столбцов. Список столбцов задаётся без скобок. Более сложные условия соединения не поддерживаются.

"Правая" таблица (результат подзапроса) располагается в оперативке. Если оперативки не хватает, вы не сможете выполнить JOIN.

В запросе (на одном уровне) можно указать только один JOIN. Чтобы выполнить несколько JOIN-ов, вы можете разместить их в подзапросах.

Каждый раз для выполнения запроса с одинаковым JOIN-ом, подзапрос выполняется заново - результат не кэшируется. Это можно избежать, используя специальный движок таблиц Join, представляющий собой подготовленное множество для соединения, которое всегда находится в оперативке. Подробнее смотрите в разделе "Движки таблиц, Join".

В некоторых случаях, вместо использования JOIN достаточно использовать IN - это более эффективно.
Среди разных типов JOIN-ов, наиболее эффективен ANY LEFT JOIN, затем ANY INNER JOIN; наименее эффективны ALL LEFT JOIN и ALL INNER JOIN.

Если JOIN необходим для соединения с таблицами измерений (dimension tables - сравнительно небольшие таблицы, которые содержат свойства измерений - например, имена для рекламных кампаний), то использование JOIN может быть не очень удобным из-за громоздкости синтаксиса, а также из-за того, что правая таблица читается заново при каждом запросе. Специально для таких случаев существует функциональность "Внешние словари", которую следует использовать вместо JOIN. Подробнее смотрите раздел "Внешние словари".

### Секция WHERE

Секция WHERE, если есть, должна содержать выражение, имеющее тип UInt8. Обычно это какое-либо выражение с операторами сравнения и логическими операторами.
Это выражение будет использовано для фильтрации данных перед всеми остальными преобразованиями.

Выражение анализируется на возможность использования индексов, если индексы поддерживаются движком таблицы.

### Секция PREWHERE

Имеет такой же смысл, как и секция WHERE. Отличие состоит в том, какие данные читаются из таблицы.
При использовании PREWHERE, из таблицы сначала читаются только столбцы, необходимые для выполнения PREWHERE. Затем читаются остальные столбцы, нужные для выполнения запроса, но из них только те блоки, в которых выражение в PREWHERE истинное.

PREWHERE имеет смысл использовать, если есть условия фильтрации, не подходящие под индексы, которые использует меньшинство столбцов из тех, что есть в запросе, но достаточно сильно фильтрует данные. Таким образом, сокращается количество читаемых данных.

Например, полезно писать PREWHERE для запросов, которые вынимают много столбцов, но в которых фильтрация производится лишь по нескольким столбцам.

PREWHERE поддерживается только таблицами семейства `*MergeTree`.

В запросе могут быть одновременно указаны секции PREWHERE и WHERE. В этом случае, PREWHERE идёт перед WHERE.

Следует иметь ввиду, что указывать в PREWHERE только столбцы, по которым существует индекс, имеет мало смысла, так как при использовании индекса и так читаются лишь блоки данных, соответствующие индексу.

Если настройка optimize_move_to_prewhere выставлена в 1, то при отсутствии PREWHERE, система будет автоматически переносить части выражений из WHERE в PREWHERE согласно некоторой эвристике.

### Секция GROUP BY

Это одна из наиболее важных частей СУБД.

Секция GROUP BY, если есть, должна содержать список выражений. Каждое выражение далее будем называть "ключом".
При этом, все выражения в секциях SELECT, HAVING, ORDER BY, должны вычисляться из ключей или из агрегатных функций. То есть, каждый выбираемый из таблицы столбец, должен использоваться либо в ключах, либо внутри агрегатных функций.

Если запрос содержит столбцы таблицы только внутри агрегатных функций, то секция GROUP BY может не указываться, и подразумевается агрегация по пустому набору ключей.

Пример:

```sql
SELECT
    count(),
    median(FetchTiming > 60 ? 60 : FetchTiming),
    count() - sum(Refresh)
FROM hits
```

Но, в отличие от стандартного SQL, если в таблице нет строк (вообще нет или после фильтрации с помощью WHERE), в качестве результата возвращается пустой результат, а не результат из одной строки, содержащий "начальные" значения агрегатных функций.

В отличие от MySQL (и в соответствии со стандартом SQL), вы не можете получить какое-нибудь значение некоторого столбца, не входящего в ключ или агрегатную функцию (за исключением константных выражений). Для обхода этого вы можете воспользоваться агрегатной функцией any (получить первое попавшееся значение) или min/max.

Пример:

```sql
SELECT
    domainWithoutWWW(URL) AS domain,
    count(),
    any(Title) AS title -- getting the first occurred page header for each domain.
FROM hits
GROUP BY domain
```

GROUP BY вычисляет для каждого встретившегося различного значения ключей, набор значений агрегатных функций.

Не поддерживается GROUP BY по столбцам-массивам.

Не поддерживается указание констант в качестве аргументов агрегатных функций. Пример: sum(1). Вместо этого, вы можете избавиться от констант. Пример: `count()`.

#### Модификатор WITH TOTALS

Если указан модификатор WITH TOTALS, то будет посчитана ещё одна строчка, в которой в столбцах-ключах будут содержаться значения по умолчанию (нули, пустые строки), а в столбцах агрегатных функций - значения, посчитанные по всем строкам ("тотальные" значения).

Эта дополнительная строчка выводится в форматах JSON\*, TabSeparated\*, Pretty\* отдельно от остальных строчек. В остальных форматах эта строчка не выводится.

В форматах JSON\* строчка выводится отдельным полем totals. В форматах TabSeparated\* строчка выводится после основного результата, и перед ней (после остальных данных) вставляется пустая строка. В форматах Pretty\* строчка выводится отдельной табличкой после основного результата.

`WITH TOTALS` может выполняться по-разному при наличии HAVING. Поведение зависит от настройки totals_mode.
По умолчанию `totals_mode = 'before_having'`. В этом случае totals считается по всем строчкам, включая непрошедших через HAVING и max_rows_to_group_by.

Остальные варианты учитывают в totals только строчки, прошедшие через HAVING, и имеют разное поведение при наличии настройки `max_rows_to_group_by` и `group_by_overflow_mode = 'any'`.

`after_having_exclusive` - не учитывать строчки, не прошедшие `max_rows_to_group_by`. То есть в totals попадёт меньше или столько же строчек, чем если бы `max_rows_to_group_by` не было.

`after_having_inclusive` - учитывать в totals все строчки, не прошедшие max_rows_to_group_by. То есть в totals попадёт больше или столько же строчек, чем если бы `max_rows_to_group_by` не было.

`after_having_auto` - считать долю строчек, прошедших через HAVING. Если она больше некоторого значения (по умолчанию - 50%), то включить все строчки, не прошедшие max_rows_to_group_by в totals, иначе - не включить.

`totals_auto_threshold` - по умолчанию 0.5. Коэффициент для работы `after_having_auto`.

Если `max_rows_to_group_by` и `group_by_overflow_mode = 'any'` не используются, то все варианты вида `after_having` не отличаются, и вы можете использовать любой из них, например, `after_having_auto`.

Вы можете использовать WITH TOTALS в подзапросах, включая подзапросы в секции JOIN (в этом случае соответствующие тотальные значения будут соединены).

#### GROUP BY во внешней памяти

Существует возможность включить сброс временных данных на диск для ограничения потребления оперативной памяти при GROUP BY.
Настройка `max_bytes_before_external_group_by` - потребление оперативки, при котором временные данные GROUP BY сбрасываются в файловую систему. Если равно 0 (по умолчанию) - значит выключено.

При использовании `max_bytes_before_external_group_by` рекомендуется выставить max_memory_usage примерно в два раза больше. Это следует сделать, потому что агрегация выполняется в две стадии: чтение и формирование промежуточных данных (1) и слияние промежуточных данных (2). Сброс данных на файловую систему может производиться только на стадии 1. Если сброса временных данных не было, то на стадии 2 может потребляться до такого же объёма памяти, как на стадии 1.

Например, если у вас `max_memory_usage` было выставлено в 10000000000, и вы хотите использовать внешнюю агрегацию, то имеет смысл выставить `max_bytes_before_external_group_by` в 10000000000, а max_memory_usage в 20000000000. При срабатывании внешней агрегации (если был хотя бы один сброс временных данных в файловую систему) максимальное потребление оперативки будет лишь чуть-чуть больше `max_bytes_before_external_group_by`.

При распределённой обработке запроса внешняя агрегация производится на удалённых серверах. Для того чтобы на сервере-инициаторе запроса использовалось немного оперативки, нужно выставить настройку `distributed_aggregation_memory_efficient` в 1.

При слиянии данных, сброшенных на диск, а также при слиянии результатов с удалённых серверов, при включенной настройке `distributed_aggregation_memory_efficient`, потребляется до 1/256 \* количество потоков от общего объёма оперативки.

При включенной внешней агрегации, если данных было меньше `max_bytes_before_external_group_by` (то есть сброса данных не было), то запрос работает так же быстро, как без внешней агрегации. Если же какие-то временные данные были сброшены, то время выполнения будет в несколько раз больше (примерно в три раза).

Если после GROUP BY у вас есть ORDER BY с небольшим LIMIT, то на ORDER BY не будет тратиться существенного количества оперативки.
Но если есть ORDER BY без LIMIT, то не забудьте включить внешнюю сортировку (`max_bytes_before_external_sort`).

### Секция LIMIT N BY

LIMIT N BY COLUMNS выбирает топ N строк для каждой группы COLUMNS. LIMIT N BY не связан с LIMIT и они могут использоваться в одном запросе. Ключ для LIMIT N BY может содержать произвольное число колонок или выражений.

Пример:

```sql
SELECT
    domainWithoutWWW(URL) AS domain,
    domainWithoutWWW(REFERRER_URL) AS referrer,
    device_type,
    count() cnt
FROM hits
GROUP BY domain, referrer, device_type
ORDER BY cnt DESC
LIMIT 5 BY domain, device_type
LIMIT 100
```

Запрос выберет топ 5 рефереров для каждой пары `domain, device_type`, но не более 100 строк (`LIMIT n BY + LIMIT`).

### Секция HAVING

Позволяет отфильтровать результат, полученный после GROUP BY, аналогично секции WHERE.
WHERE и HAVING отличаются тем, что WHERE выполняется до агрегации (GROUP BY), а HAVING - после.
Если агрегации не производится, то HAVING использовать нельзя.

<a name="query_language-queries-order_by"></a>

### Секция ORDER BY

Секция ORDER BY содержит список выражений, к каждому из которых также может быть приписано DESC или ASC (направление сортировки). Если ничего не приписано - это аналогично приписыванию ASC. ASC - сортировка по возрастанию, DESC - сортировка по убыванию. Обозначение направления сортировки действует на одно выражение, а не на весь список. Пример: `ORDER BY Visits DESC, SearchPhrase`

Для сортировки по значениям типа String есть возможность указать collation (сравнение). Пример: `ORDER BY SearchPhrase COLLATE 'tr'` - для сортировки по поисковой фразе, по возрастанию, с учётом турецкого алфавита, регистронезависимо, при допущении, что строки в кодировке UTF-8. COLLATE может быть указан или не указан для каждого выражения в ORDER BY независимо. Если есть ASC или DESC, то COLLATE указывается после них. При использовании COLLATE сортировка всегда регистронезависима.

Рекомендуется использовать COLLATE только для окончательной сортировки небольшого количества строк, так как производительность сортировки с указанием COLLATE меньше, чем обычной сортировки по байтам.

Строки, для которых список выражений, по которым производится сортировка, принимает одинаковые значения, выводятся в произвольном порядке, который может быть также недетерминированным (каждый раз разным).
Если секция ORDER BY отсутствует, то, аналогично, порядок, в котором идут строки, не определён, и может быть недетерминированным.

При сортировке чисел с плавающей запятой, NaN-ы идут отдельно от остальных значений. Вне зависимости от порядка сортировки, NaN-ы помещаются в конец. То есть, при сортировке по возрастанию, они как будто больше всех чисел, а при сортировке по убыванию - как будто меньше всех.

Если кроме ORDER BY указан также не слишком большой LIMIT, то расходуется меньше оперативки. Иначе расходуется количество памяти, пропорциональное количеству данных для сортировки. При распределённой обработке запроса, если отсутствует GROUP BY, сортировка частично делается на удалённых серверах, а на сервере-инициаторе запроса производится слияние результатов. Таким образом, при распределённой сортировке, может сортироваться объём данных, превышающий размер памяти на одном сервере.

Существует возможность выполнять сортировку во внешней памяти (с созданием временных файлов на диске), если оперативной памяти не хватает. Для этого предназначена настройка `max_bytes_before_external_sort`. Если она выставлена в 0 (по умолчанию), то внешняя сортировка выключена. Если она включена, то при достижении объёмом данных для сортировки указанного количества байт, накопленные данные будут отсортированы и сброшены во временный файл. После того, как все данные будут прочитаны, будет произведено слияние всех сортированных файлов и выдача результата. Файлы записываются в директорию /var/lib/clickhouse/tmp/ (по умолчанию, может быть изменено с помощью параметра tmp_path) в конфиге.

На выполнение запроса может расходоваться больше памяти, чем max_bytes_before_external_sort. Поэтому, значение этой настройки должно быть существенно меньше, чем max_memory_usage. Для примера, если на вашем сервере 128 GB оперативки, и вам нужно выполнить один запрос, то выставите max_memory_usage в 100 GB, а max_bytes_before_external_sort в 80 GB.

Внешняя сортировка работает существенно менее эффективно, чем сортировка в оперативке.

### Секция SELECT

После вычислений, соответствующих всем перечисленным выше секциям, производится вычисление выражений, указанных в секции SELECT.
Вернее, вычисляются выражения, стоящие над агрегатными функциями, если есть агрегатные функции.
Сами агрегатные функции и то, что под ними, вычисляются при агрегации (GROUP BY).
Эти выражения работают так, как будто применяются к отдельным строкам результата.

### Секция DISTINCT

Если указано DISTINCT, то из всех множеств полностью совпадающих строк результата, будет оставляться только одна строка.
Результат выполнения будет таким же, как если указано GROUP BY по всем указанным полям в SELECT-е и не указаны агрегатные функции. Но имеется несколько отличий от GROUP BY:

-   DISTINCT может применяться совместно с GROUP BY;
-   при отсутствии ORDER BY и наличии LIMIT, запрос прекратит выполнение сразу после того, как будет прочитано необходимое количество различных строк - в этом случае использование DISTINCT существенно более оптимально;
-   блоки данных будут выдаваться по мере их обработки, не дожидаясь выполнения всего запроса.

DISTINCT не поддерживается, если в SELECT-е присутствует хотя бы один столбец типа массив.

### Секция LIMIT

LIMIT m позволяет выбрать из результата первые m строк.
LIMIT n, m позволяет выбрать из результата первые m строк после пропуска первых n строк.

n и m должны быть неотрицательными целыми числами.

При отсутствии секции ORDER BY, однозначно сортирующей результат, результат может быть произвольным и может являться недетерминированным.

### Секция UNION ALL

Произвольное количество запросов может быть объединено с помощью UNION ALL. Пример:

```sql
SELECT CounterID, 1 AS table, toInt64(count()) AS c
    FROM test.hits
    GROUP BY CounterID

UNION ALL

SELECT CounterID, 2 AS table, sum(Sign) AS c
    FROM test.visits
    GROUP BY CounterID
    HAVING c > 0
```

Поддерживается только UNION ALL. Обычный UNION (UNION DISTINCT) не поддерживается. Если вам нужен UNION DISTINCT, то вы можете написать SELECT DISTINCT из подзапроса, содержащего UNION ALL.

Запросы - части UNION ALL могут выполняться параллельно, и их результаты могут возвращаться вперемешку.

Структура результатов (количество и типы столбцов) у запросов должна совпадать. Но имена столбцов могут отличаться. В этом случае, имена столбцов для общего результата будут взяты из первого запроса.

Запросы - части UNION ALL нельзя заключить в скобки. ORDER BY и LIMIT применяются к отдельным запросам, а не к общему результату. Если вам нужно применить какое-либо преобразование к общему результату, то вы можете разместить все запросы с UNION ALL в подзапросе в секции FROM.

### Секция INTO OUTFILE

При указании `INTO OUTFILE filename` (где filename - строковый литерал), результат запроса будет сохранён в файл filename.
В отличие от MySQL, файл создаётся на стороне клиента. Если файл с таким именем уже существует, это приведёт к ошибке.
Функциональность доступна в клиенте командной строки и clickhouse-local (попытка выполнить запрос с INTO OUTFILE через HTTP интерфейс приведёт к ошибке).

Формат вывода по умолчанию - TabSeparated, как и в неинтерактивном режиме клиента командной строки.

### Секция FORMAT

При указании FORMAT format вы можете получить данные в любом указанном формате.
Это может использоваться для удобства или для создания дампов.
Подробнее смотрите раздел "Форматы".
Если секция FORMAT отсутствует, то используется формат по умолчанию, который зависит от используемого интерфейса для доступа к БД и от настроек. Для HTTP интерфейса, а также для клиента командной строки, используемого в batch-режиме, по умолчанию используется формат TabSeparated. Для клиента командной строки, используемого в интерактивном режиме, по умолчанию используется формат PrettyCompact (прикольные таблички, компактные).

При использовании клиента командной строки данные на клиент передаются во внутреннем эффективном формате. При этом клиент самостоятельно интерпретирует секцию FORMAT запроса и форматирует данные на своей стороне (снимая нагрузку на сеть и сервер).

### Операторы IN

Операторы `IN`, `NOT IN`, `GLOBAL IN`, `GLOBAL NOT IN` рассматриваются отдельно, так как их функциональность достаточно богатая.

В качестве левой части оператора, может присутствовать как один столбец, так и кортеж.

Примеры:

```sql
SELECT UserID IN (123, 456) FROM ...
SELECT (CounterID, UserID) IN ((34, 123), (101500, 456)) FROM ...
```

Если слева стоит один столбец, входящий в индекс, а справа - множество констант, то при выполнении запроса, система воспользуется индексом.

Не перечисляйте слишком большое количество значений (миллионы) явно. Если множество большое - лучше загрузить его во временную таблицу (например, смотрите раздел "Внешние данные для обработки запроса"), и затем воспользоваться подзапросом.

В качестве правой части оператора может быть множество константных выражений, множество кортежей с константными выражениями (показано в примерах выше), а также имя таблицы или подзапрос SELECT в скобках.

Если в качестве правой части оператора указано имя таблицы (например, `UserID IN users`), то это эквивалентно подзапросу `UserID IN (SELECT * FROM users)`. Это используется при работе с внешними данными, отправляемым вместе с запросом. Например, вместе с запросом может быть отправлено множество идентификаторов посетителей, загруженное во временную таблицу users, по которому следует выполнить фильтрацию.

Если качестве правой части оператора, указано имя таблицы, имеющий движок Set (подготовленное множество, постоянно находящееся в оперативке), то множество не будет создаваться заново при каждом запросе.

В подзапросе может быть указано более одного столбца для фильтрации кортежей.
Пример:

```sql
SELECT (CounterID, UserID) IN (SELECT CounterID, UserID FROM ...) FROM ...
```

Типы столбцов слева и справа оператора IN, должны совпадать.

Оператор IN и подзапрос могут встречаться в любой части запроса, в том числе в агрегатных и лямбда функциях.
Пример:

```sql
SELECT
    EventDate,
    avg(UserID IN
    (
        SELECT UserID
        FROM test.hits
        WHERE EventDate = toDate('2014-03-17')
    )) AS ratio
FROM test.hits
GROUP BY EventDate
ORDER BY EventDate ASC
```

```text
┌──EventDate─┬────ratio─┐
│ 2014-03-17 │        1 │
│ 2014-03-18 │ 0.807696 │
│ 2014-03-19 │ 0.755406 │
│ 2014-03-20 │ 0.723218 │
│ 2014-03-21 │ 0.697021 │
│ 2014-03-22 │ 0.647851 │
│ 2014-03-23 │ 0.648416 │
└────────────┴──────────┘
```

за каждый день после 17 марта считаем долю хитов, сделанных посетителями, которые заходили на сайт 17 марта.
Подзапрос в секции IN на одном сервере всегда выполняется только один раз. Зависимых подзапросов не существует.

<a name="queries-distributed-subrequests"></a>

#### Распределённые подзапросы

Существует два варианта IN-ов с подзапросами (аналогично для JOIN-ов): обычный `IN` / `JOIN` и `GLOBAL IN` / `GLOBAL JOIN`. Они отличаются способом выполнения при распределённой обработке запроса.

!!! attention
    Помните, что алгоритмы, описанные ниже, могут работать иначе в зависимости от [настройки](../operations/settings/settings.md#settings-distributed_product_mode) `distributed_product_mode`.

При использовании обычного IN-а, запрос отправляется на удалённые серверы, и на каждом из них выполняются подзапросы в секциях `IN` / `JOIN`.

При использовании `GLOBAL IN` / `GLOBAL JOIN-а`, сначала выполняются все подзапросы для `GLOBAL IN` / `GLOBAL JOIN-ов`, и результаты складываются во временные таблицы. Затем эти временные таблицы передаются на каждый удалённый сервер, и на них выполняются запросы, с использованием этих переданных временных данных.

Если запрос не распределённый, используйте обычный `IN` / `JOIN`.

Следует быть внимательным при использовании подзапросов в секции `IN` / `JOIN` в случае распределённой обработки запроса.

Рассмотрим это на примерах. Пусть на каждом сервере кластера есть обычная таблица **local_table**. Пусть также есть таблица **distributed_table** типа **Distributed**, которая смотрит на все серверы кластера.

При запросе к распределённой таблице **distributed_table**, запрос будет отправлен на все удалённые серверы, и на них будет выполнен с использованием таблицы **local_table**.

Например, запрос

```sql
SELECT uniq(UserID) FROM distributed_table
```

будет отправлен на все удалённые серверы в виде

```sql
SELECT uniq(UserID) FROM local_table
```

, выполнен параллельно на каждом из них до стадии, позволяющей объединить промежуточные результаты; затем промежуточные результаты вернутся на сервер-инициатор запроса, будут на нём объединены, и финальный результат будет отправлен клиенту.

Теперь рассмотрим запрос с IN-ом:

```sql
SELECT uniq(UserID) FROM distributed_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM local_table WHERE CounterID = 34)
```

-   расчёт пересечения аудиторий двух сайтов.

Этот запрос будет отправлен на все удалённые серверы в виде

```sql
SELECT uniq(UserID) FROM local_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM local_table WHERE CounterID = 34)
```

То есть, множество в секции IN будет собрано на каждом сервере независимо, только по тем данным, которые есть локально на каждом из серверов.

Это будет работать правильно и оптимально, если вы предусмотрели такой случай, и раскладываете данные по серверам кластера таким образом, чтобы данные одного UserID-а лежали только на одном сервере. В таком случае все необходимые данные будут присутствовать на каждом сервере локально. В противном случае результат будет посчитан неточно. Назовём этот вариант запроса "локальный IN".

Чтобы исправить работу запроса, когда данные размазаны по серверам кластера произвольным образом, можно было бы указать **distributed_table** внутри подзапроса. Запрос будет выглядеть так:

```sql
SELECT uniq(UserID) FROM distributed_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)
```

Этот запрос будет отправлен на все удалённые серверы в виде

```sql
SELECT uniq(UserID) FROM local_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)
```

На каждом удалённом сервере начнёт выполняться подзапрос. Так как в подзапросе используется распределённая таблица, то подзапрос будет, на каждом удалённом сервере, снова отправлен на каждый удалённый сервер, в виде

```sql
SELECT UserID FROM local_table WHERE CounterID = 34
```

Например, если у вас кластер из 100 серверов, то выполнение всего запроса потребует 10 000 элементарных запросов, что, как правило, является неприемлемым.

В таких случаях всегда следует использовать GLOBAL IN вместо IN. Рассмотрим его работу для запроса

```sql
SELECT uniq(UserID) FROM distributed_table WHERE CounterID = 101500 AND UserID GLOBAL IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)
```

На сервере-инициаторе запроса будет выполнен подзапрос

```sql
SELECT UserID FROM distributed_table WHERE CounterID = 34
```

, и результат будет сложен во временную таблицу в оперативке. Затем запрос будет отправлен на каждый удалённый сервер в виде

```sql
SELECT uniq(UserID) FROM local_table WHERE CounterID = 101500 AND UserID GLOBAL IN _data1
```

, и вместе с запросом, на каждый удалённый сервер будет отправлена временная таблица `_data1` (имя временной таблицы - implementation defined).

Это гораздо более оптимально, чем при использовании обычного IN. Но при этом, следует помнить о нескольких вещах:

1.  При создании временной таблицы данные не уникализируются. Чтобы уменьшить объём передаваемых по сети данных, укажите в подзапросе DISTINCT (для обычного IN-а этого делать не нужно).
2.  Временная таблица будет передана на все удалённые серверы. Передача не учитывает топологию сети. Например, если 10 удалённых серверов расположены в удалённом относительно сервера-инициатора запроса датацентре, то по каналу в удалённый датацентр данные будет переданы 10 раз. Старайтесь не использовать большие множества при использовании GLOBAL IN.
3.  При передаче данных на удалённые серверы не настраивается ограничение использования сетевой полосы. Вы можете перегрузить сеть.
4.  Старайтесь распределять данные по серверам так, чтобы в GLOBAL IN-ах не было частой необходимости.
5.  Если в GLOBAL IN есть частая необходимость, то спланируйте размещение кластера ClickHouse таким образом, чтобы в каждом датацентре была хотя бы одна реплика каждого шарда, и среди них была быстрая сеть - чтобы запрос целиком можно было бы выполнить, передавая данные в пределах одного датацентра.

В секции `GLOBAL IN` также имеет смысл указывать локальную таблицу - в случае, если эта локальная таблица есть только на сервере-инициаторе запроса, и вы хотите воспользоваться данными из неё на удалённых серверах.

### Экстремальные значения

Вы можете получить в дополнение к результату также минимальные и максимальные значения по столбцам результата. Для этого выставите настройку **extremes** в 1. Минимумы и максимумы считаются для числовых типов, дат, дат-с-временем. Для остальных столбцов будут выведены значения по умолчанию.

Вычисляются дополнительные две строчки - минимумы и максимумы, соответственно. Эти дополнительные две строчки выводятся в форматах JSON\*, TabSeparated\*, Pretty\* отдельно от остальных строчек. В остальных форматах они не выводится.

В форматах JSON\* экстремальные значения выводятся отдельным полем extremes. В форматах TabSeparated\* строчка выводится после основного результата и после totals, если есть. Перед ней (после остальных данных) вставляется пустая строка. В форматах Pretty\* строчка выводится отдельной табличкой после основного результата и после totals, если есть.

Экстремальные значения считаются по строчкам, прошедшим через LIMIT. Но при этом, при использовании LIMIT offset, size, строчки до offset учитываются в extremes. В потоковых запросах, в результате может учитываться также небольшое количество строчек, прошедших LIMIT.

### Замечания

В секциях `GROUP BY`, `ORDER BY`, в отличие от диалекта MySQL, и в соответствии со стандартным SQL, не поддерживаются позиционные аргументы.
Например, если вы напишите `GROUP BY 1, 2` - то это будет воспринято, как группировка по константам (то есть, агрегация всех строк в одну).

Вы можете использовать синонимы (алиасы `AS`) в любом месте запроса.

В любом месте запроса, вместо выражения, может стоять звёздочка. При анализе запроса звёздочка раскрывается в список всех столбцов таблицы (за исключением `MATERIALIZED` и `ALIAS` столбцов). Есть лишь немного случаев, когда оправдано использовать звёздочку:

-   при создании дампа таблицы;
-   для таблиц, содержащих всего несколько столбцов - например, системных таблиц;
-   для получения информации о том, какие столбцы есть в таблице; в этом случае, укажите `LIMIT 1`. Но лучше используйте запрос `DESC TABLE`;
-   при наличии сильной фильтрации по небольшому количеству столбцов с помощью `PREWHERE`;
-   в подзапросах (так как из подзапросов выкидываются столбцы, не нужные для внешнего запроса).

В других случаях использование звёздочки является издевательством над системой, так как вместо преимуществ столбцовой СУБД вы получаете недостатки. То есть использовать звёздочку не рекомендуется.
-												Some WIP on documentation refactoring (#2659)

* Additional .gitignore entries

* Merge a bunch of small articles about system tables into single one

* Merge a bunch of small articles about formats into single one

* Adapt table with formats to English docs too

* Add SPb meetup link to main page

* Move Utilities out of top level of docs (the location is probably not yet final) + translate couple articles

* Merge MacOS.md into build_osx.md

* Move Data types higher in ToC

* Publish changelog on website alongside documentation

* Few fixes for en/table_engines/file.md

* Use smaller header sizes in changelogs

* Group up table engines inside ToC

* Move table engines out of top level too

* Specificy in ToC that query language is SQL based. Thats a bit excessive, but catches eye.

* Move stuff that is part of query language into respective folder

* Move table functions lower in ToC

* Lost redirects.txt update

* Do not rely on comments in yaml + fix few ru titles

* Extract major parts of queries.md into separate articles

* queries.md has been supposed to be removed

* Fix weird translation

* Fix a bunch of links

* There is only table of contents left

* "Query language" is actually part of SQL abbreviation

* Change filename in README.md too

* fix mistype

											
										
										
											2018-07-18 10:00:53 +00:00
+								# SELECT запросы
-												The description of `clickhouse-local` utility is extended.

											
										
										
											2018-04-16 05:32:37 +00:00
-												Some WIP on documentation refactoring (#2659)

* Additional .gitignore entries

* Merge a bunch of small articles about system tables into single one

* Merge a bunch of small articles about formats into single one

* Adapt table with formats to English docs too

* Add SPb meetup link to main page

* Move Utilities out of top level of docs (the location is probably not yet final) + translate couple articles

* Merge MacOS.md into build_osx.md

* Move Data types higher in ToC

* Publish changelog on website alongside documentation

* Few fixes for en/table_engines/file.md

* Use smaller header sizes in changelogs

* Group up table engines inside ToC

* Move table engines out of top level too

* Specificy in ToC that query language is SQL based. Thats a bit excessive, but catches eye.

* Move stuff that is part of query language into respective folder

* Move table functions lower in ToC

* Lost redirects.txt update

* Do not rely on comments in yaml + fix few ru titles

* Extract major parts of queries.md into separate articles

* queries.md has been supposed to be removed

* Fix weird translation

* Fix a bunch of links

* There is only table of contents left

* "Query language" is actually part of SQL abbreviation

* Change filename in README.md too

* fix mistype

											
										
										
											2018-07-18 10:00:53 +00:00
+								`SELECT` осуществляет выборку данных.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT [DISTINCT] expr_list
 								    [FROM [db.]table | (subquery) | table_function] [FINAL]
 								    [SAMPLE sample_coeff]
 								    [ARRAY JOIN ...]
 								    [GLOBAL] ANY|ALL INNER|LEFT JOIN (subquery)|table USING columns_list
 								    [PREWHERE expr]
 								    [WHERE expr]
 								    [GROUP BY expr_list] [WITH TOTALS]
 								    [HAVING expr]
 								    [ORDER BY expr_list]
 								    [LIMIT [n, ]m]
 								    [UNION ALL ...]
 								    [INTO OUTFILE filename]
 								    [FORMAT format]
 								    [LIMIT n BY columns]
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Все секции, кроме списка выражений сразу после SELECT, являются необязательными.
 								Ниже секции будут описаны в порядке, почти соответствующем конвейеру выполнения запроса.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Если в запросе отсутствуют секции `DISTINCT`, `GROUP BY`, `ORDER BY`, подзапросы в `IN` и `JOIN`, то запрос будет обработан полностью потоково, с использованием O(1) количества оперативки.
 								Иначе запрос может съесть много оперативки, если не указаны подходящие ограничения `max_memory_usage`, `max_rows_to_group_by`, `max_rows_to_sort`, `max_rows_in_distinct`, `max_bytes_in_distinct`, `max_rows_in_set`, `max_bytes_in_set`, `max_rows_in_join`, `max_bytes_in_join`, `max_bytes_before_external_sort`, `max_bytes_before_external_group_by`. Подробнее смотрите в разделе "Настройки". Присутствует возможность использовать внешнюю сортировку (с сохранением временных данных на диск) и внешнюю агрегацию. `Merge join` в системе нет.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция FROM
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Если секция FROM отсутствует, то данные будут читаться из таблицы `system.one`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Таблица system.one содержит ровно одну строку (то есть, эта таблица выполняет такую же роль, как таблица DUAL, которую можно найти в других СУБД).
 								В секции FROM указывается таблица, из которой будут читаться данные, либо подзапрос, либо табличная функция; дополнительно могут присутствовать ARRAY JOIN и обычный JOIN (смотрите ниже).
 								Вместо таблицы, может быть указан подзапрос SELECT в скобках.
 								В этом случае, конвейер обработки подзапроса будет встроен в конвейер обработки внешнего запроса.
 								В отличие от стандартного SQL, после подзапроса не нужно указывать его синоним. Для совместимости, присутствует возможность написать AS name после подзапроса, но указанное имя нигде не используется.
 								Вместо таблицы, может быть указана табличная функция. Подробнее смотрите раздел "Табличные функции".
 								Для выполнения запроса, из соответствующей таблицы, вынимаются все столбцы, перечисленные в запросе. Из подзапросов выкидываются столбцы, не нужные для внешнего запроса.
 								Если в запросе не перечислено ни одного столбца (например, SELECT count() FROM t), то из таблицы всё равно вынимается один какой-нибудь столбец (предпочитается самый маленький), для того, чтобы можно было хотя бы посчитать количество строк.
 								Модификатор FINAL может быть использован только при SELECT-е из таблицы типа CollapsingMergeTree. При указании FINAL, данные будут выбираться полностью "сколлапсированными". Стоит учитывать, что использование FINAL приводит к выбору кроме указанных в SELECT-е столбцов также столбцов, относящихся к первичному ключу. Также, запрос будет выполняться в один поток, и при выполнении запроса будет выполняться слияние данных. Это приводит к тому, что при использовании FINAL, запрос выполняется медленнее. В большинстве случаев, следует избегать использования FINAL. Подробнее смотрите раздел "Движок CollapsingMergeTree".
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция SAMPLE
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Секция SAMPLE позволяет выполнить запрос приближённо. Приближённое выполнение запроса поддерживается только таблицами типа MergeTree\* и только если при создании таблицы было указано выражение, по которому производится выборка (смотрите раздел "Движок MergeTree").
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`SAMPLE` имеет вид `SAMPLE k`, где `k` - дробное число в интервале от 0 до 1, или `SAMPLE n`, где n - достаточно большое целое число.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								В первом случае, запрос будет выполнен по k-доле данных. Например, если указано `SAMPLE 0.1`, то запрос будет выполнен по 10% данных.
 								Во втором случае, запрос будет выполнен по выборке из не более n строк. Например, если указано `SAMPLE 10000000`, то запрос будет выполнен по не более чем 10 000 000 строкам.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT
 								    Title,
 								    count() * 10 AS PageViews
 								FROM hits_distributed
 								SAMPLE 0.1
 								WHERE
 								    CounterID = 34
 								    AND toDate(EventDate) >= toDate('2013-01-29')
 								    AND toDate(EventDate) <= toDate('2013-02-04')
 								    AND NOT DontCountHits
 								    AND NOT Refresh
 								    AND Title != ''
 								GROUP BY Title
 								ORDER BY PageViews DESC LIMIT 1000
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								В этом примере, запрос выполняется по выборке из 0.1 (10%) данных. Значения агрегатных функций не корректируются автоматически, поэтому для получения приближённого результата, значение count() вручную домножается на 10.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При использовании варианта вида `SAMPLE 10000000`, нет информации, какая относительная доля данных была обработана, и на что следует домножить агрегатные функции, поэтому такой способ записи подходит не для всех случаев.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Выборка с указанием относительного коэффициента является "согласованной": если рассмотреть все возможные данные, которые могли бы быть в таблице, то выборка (при использовании одного выражения сэмплирования, указанного при создании таблицы), с одинаковым коэффициентом, выбирает всегда одно и то же подмножество этих всевозможных данных. То есть, выборка из разных таблиц, на разных серверах, в разное время, делается одинаковым образом.
 								Например, выборка по идентификаторам посетителей, выберет из разных таблиц строки с одинаковым подмножеством всех возможных идентификаторов посетителей. Это позволяет использовать выборку в подзапросах в секции IN, а также при ручном сопоставлении результатов разных запросов с выборками.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция ARRAY JOIN
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Позволяет выполнить JOIN с массивом или вложенной структурой данных. Смысл похож на функцию arrayJoin, но функциональность более широкая.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`ARRAY JOIN` - это, по сути, `INNER JOIN` с массивом. Пример:
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) CREATE TABLE arrays_test (s String, arr Array(UInt8)) ENGINE = Memory
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								CREATE TABLE arrays_test
 								(
 								    s String,
 								    arr Array(UInt8)
 								) ENGINE = Memory
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Ok.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) INSERT INTO arrays_test VALUES ('Hello', [1,2]), ('World', [3,4,5]), ('Goodbye', [])
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								INSERT INTO arrays_test VALUES
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Ok.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) SELECT * FROM arrays_test
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT *
 								FROM arrays_test
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s───────┬─arr─────┐
 								│ Hello   │ [1,2]   │
 								│ World   │ [3,4,5] │
 								│ Goodbye │ []      │
 								└─────────┴─────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) SELECT s, arr FROM arrays_test ARRAY JOIN arr
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, arr
 								FROM arrays_test
 								ARRAY JOIN arr
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─arr─┐
 								│ Hello │   1 │
 								│ Hello │   2 │
 								│ World │   3 │
 								│ World │   4 │
 								│ World │   5 │
 								└───────┴─────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Для массива в секции ARRAY JOIN может быть указан алиас. В этом случае, элемент массива будет доступен под этим алиасом, а сам массив - под исходным именем. Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) SELECT s, arr, a FROM arrays_test ARRAY JOIN arr AS a
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, arr, a
 								FROM arrays_test
 								ARRAY JOIN arr AS a
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─arr─────┬─a─┐
 								│ Hello │ [1,2]   │ 1 │
 								│ Hello │ [1,2]   │ 2 │
 								│ World │ [3,4,5] │ 3 │
 								│ World │ [3,4,5] │ 4 │
 								│ World │ [3,4,5] │ 5 │
 								└───────┴─────────┴───┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								В секции ARRAY JOIN может быть указано несколько массивов одинаковых размеров через запятую. В этом случае, JOIN делается с ними одновременно (прямая сумма, а не прямое произведение). Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) SELECT s, arr, a, num, mapped FROM arrays_test ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num, arrayMap(x -> x + 1, arr) AS mapped
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, arr, a, num, mapped
 								FROM arrays_test
 								ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num, arrayMap(lambda(tuple(x), plus(x, 1)), arr) AS mapped
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─arr─────┬─a─┬─num─┬─mapped─┐
 								│ Hello │ [1,2]   │ 1 │   1 │      2 │
 								│ Hello │ [1,2]   │ 2 │   2 │      3 │
 								│ World │ [3,4,5] │ 3 │   1 │      4 │
 								│ World │ [3,4,5] │ 4 │   2 │      5 │
 								│ World │ [3,4,5] │ 5 │   3 │      6 │
 								└───────┴─────────┴───┴─────┴────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.002 sec.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) SELECT s, arr, a, num, arrayEnumerate(arr) FROM arrays_test ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, arr, a, num, arrayEnumerate(arr)
 								FROM arrays_test
 								ARRAY JOIN arr AS a, arrayEnumerate(arr) AS num
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─arr─────┬─a─┬─num─┬─arrayEnumerate(arr)─┐
 								│ Hello │ [1,2]   │ 1 │   1 │ [1,2]               │
 								│ Hello │ [1,2]   │ 2 │   2 │ [1,2]               │
 								│ World │ [3,4,5] │ 3 │   1 │ [1,2,3]             │
 								│ World │ [3,4,5] │ 4 │   2 │ [1,2,3]             │
 								│ World │ [3,4,5] │ 5 │   3 │ [1,2,3]             │
 								└───────┴─────────┴───┴─────┴─────────────────────┘
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.002 sec.
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								ARRAY JOIN также работает с вложенными структурами данных. Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) CREATE TABLE nested_test (s String, nest Nested(x UInt8, y UInt32)) ENGINE = Memory
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								CREATE TABLE nested_test
 								(
 								    s String,
 								    nest Nested(
 								    x UInt8,
 								    y UInt32)
 								) ENGINE = Memory
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Ok.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.006 sec.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) INSERT INTO nested_test VALUES ('Hello', [1,2], [10,20]), ('World', [3,4,5], [30,40,50]), ('Goodbye', [], [])
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								INSERT INTO nested_test VALUES
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Ok.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) SELECT * FROM nested_test
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT *
 								FROM nested_test
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s───────┬─nest.x──┬─nest.y─────┐
 								│ Hello   │ [1,2]   │ [10,20]    │
 								│ World   │ [3,4,5] │ [30,40,50] │
 								│ Goodbye │ []      │ []         │
 								└─────────┴─────────┴────────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								:) SELECT s, nest.x, nest.y FROM nested_test ARRAY JOIN nest
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, `nest.x`, `nest.y`
 								FROM nested_test
 								ARRAY JOIN nest
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─nest.x─┬─nest.y─┐
 								│ Hello │      1 │     10 │
 								│ Hello │      2 │     20 │
 								│ World │      3 │     30 │
 								│ World │      4 │     40 │
 								│ World │      5 │     50 │
 								└───────┴────────┴────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								При указании имени вложенной структуры данных в ARRAY JOIN, смысл такой же, как ARRAY JOIN со всеми элементами-массивами, из которых она состоит. Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) SELECT s, nest.x, nest.y FROM nested_test ARRAY JOIN nest.x, nest.y
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, `nest.x`, `nest.y`
 								FROM nested_test
 								ARRAY JOIN `nest.x`, `nest.y`
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─nest.x─┬─nest.y─┐
 								│ Hello │      1 │     10 │
 								│ Hello │      2 │     20 │
 								│ World │      3 │     30 │
 								│ World │      4 │     40 │
 								│ World │      5 │     50 │
 								└───────┴────────┴────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Такой вариант тоже имеет смысл:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) SELECT s, nest.x, nest.y FROM nested_test ARRAY JOIN nest.x
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, `nest.x`, `nest.y`
 								FROM nested_test
 								ARRAY JOIN `nest.x`
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─nest.x─┬─nest.y─────┐
 								│ Hello │      1 │ [10,20]    │
 								│ Hello │      2 │ [10,20]    │
 								│ World │      3 │ [30,40,50] │
 								│ World │      4 │ [30,40,50] │
 								│ World │      5 │ [30,40,50] │
 								└───────┴────────┴────────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Алиас для вложенной структуры данных можно использовать, чтобы выбрать как результат JOIN-а, так и исходный массив. Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) SELECT s, n.x, n.y, nest.x, nest.y FROM nested_test ARRAY JOIN nest AS n
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, `n.x`, `n.y`, `nest.x`, `nest.y`
 								FROM nested_test
 								ARRAY JOIN nest AS n
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─n.x─┬─n.y─┬─nest.x──┬─nest.y─────┐
 								│ Hello │   1 │  10 │ [1,2]   │ [10,20]    │
 								│ Hello │   2 │  20 │ [1,2]   │ [10,20]    │
 								│ World │   3 │  30 │ [3,4,5] │ [30,40,50] │
 								│ World │   4 │  40 │ [3,4,5] │ [30,40,50] │
 								│ World │   5 │  50 │ [3,4,5] │ [30,40,50] │
 								└───────┴─────┴─────┴─────────┴────────────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.001 sec.
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Пример использования функции arrayEnumerate:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```text
 								:) SELECT s, n.x, n.y, nest.x, nest.y, num FROM nested_test ARRAY JOIN nest AS n, arrayEnumerate(nest.x) AS num
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT s, `n.x`, `n.y`, `nest.x`, `nest.y`, num
 								FROM nested_test
 								ARRAY JOIN nest AS n, arrayEnumerate(`nest.x`) AS num
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								┌─s─────┬─n.x─┬─n.y─┬─nest.x──┬─nest.y─────┬─num─┐
 								│ Hello │   1 │  10 │ [1,2]   │ [10,20]    │   1 │
 								│ Hello │   2 │  20 │ [1,2]   │ [10,20]    │   2 │
 								│ World │   3 │  30 │ [3,4,5] │ [30,40,50] │   1 │
 								│ World │   4 │  40 │ [3,4,5] │ [30,40,50] │   2 │
 								│ World │   5 │  50 │ [3,4,5] │ [30,40,50] │   3 │
 								└───────┴─────┴─────┴─────────┴────────────┴─────┘
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+rows in set. Elapsed: 0.002 sec.
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								В запросе может быть указано не более одной секции ARRAY JOIN.
 								Соответствующее преобразование может выполняться как до секции WHERE/PREWHERE (если его результат нужен в этой секции), так и после выполнения WHERE/PREWHERE (чтобы уменьшить объём вычислений).
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция JOIN
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Обычный JOIN, не имеет отношения к ARRAY JOIN, который описан выше.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								[GLOBAL] ANY|ALL INNER|LEFT [OUTER] JOIN (subquery)|table USING columns_list
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Выполняет соединение с данными из подзапроса. В начале выполнения запроса, выполняется подзапрос, указанный после JOIN, и его результат сохраняется в память. Затем производится чтение из "левой" таблицы, указанной в секции FROM, и во время этого чтения, для каждой прочитанной строчки из "левой" таблицы, из таблицы-результата подзапроса ("правой" таблицы) выбираются строчки, соответствующие условию на совпадение значений столбцов, указанных в USING.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Вместо подзапроса может быть указано имя таблицы. Это эквивалентно подзапросу `SELECT * FROM table`, кроме особого случая, когда таблица имеет движок Join - подготовленное множество для соединения.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Из подзапроса удаляются все ненужные для JOIN-а столбцы.
 								JOIN-ы бывают нескольких видов:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`INNER` или `LEFT` - тип:
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Если указано INNER, то в результат попадают только строки, для которых найдена соответствующая строка в "правой" таблице.
 								Если указано LEFT, то для строчек "левой" таблицы, для которых нет соответствующих в "правой" таблице, будут присоединены значения "по умолчанию" - нули, пустые строки. Вместо LEFT может быть написано LEFT OUTER - слово OUTER ни на что не влияет.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`ANY` или `ALL` - строгость:
 								Если указано `ANY`, то при наличии в "правой" таблице нескольких соответствующих строк, будет присоединена только первая попавшаяся.
 								Если указано `ALL`, то при наличии в "правой" таблице нескольких соответствующих строк, данные будут размножены по количеству этих строк.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Использование ALL соответствует обычной семантике JOIN-а из стандартного SQL.
 								Использование ANY является более оптимальным. Если известно, что в "правой" таблице есть не более одной подходящей строки, то результаты ANY и ALL совпадают. Обязательно необходимо указать ANY или ALL (ни один из этих вариантов не выбран по умолчанию).
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`GLOBAL` - распределённость:
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								При использовании обычного JOIN-а, запрос отправляется на удалённые серверы, и на каждом из них выполняются подзапросы для формирования "правой" таблицы, и с этой таблицей выполняется соединение. То есть, "правая" таблица формируется на каждом сервере отдельно.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При использовании `GLOBAL ... JOIN-а`, сначала, на сервере-инициаторе запроса, выполняется подзапрос для вычисления "правой" таблицы, и затем эта временная таблица передаётся на каждый удалённый сервер, и на них выполняются запросы, с использованием этих переданных временных данных.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Следует быть аккуратным при использовании GLOBAL JOIN-ов. Подробнее читайте в разделе "Распределённые подзапросы" ниже.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Возможны все комбинации JOIN-ов. Например, `GLOBAL ANY LEFT OUTER JOIN`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								При выполнении JOIN-а отсутствует оптимизация порядка выполнения по отношению к другим стадиям запроса: соединение (поиск в "правой" таблице) выполняется до фильтрации в WHERE, до агрегации. Поэтому, чтобы явно задать порядок вычислений, рекомендуется выполнять JOIN подзапроса с подзапросом.
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT
 								    CounterID,
 								    hits,
 								    visits
 								FROM
 								(
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								    SELECT
 								        CounterID,
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								        count() AS hits
 								    FROM test.hits
 								    GROUP BY CounterID
 								) ANY LEFT JOIN
 								(
 								    SELECT
 								        CounterID,
 								        sum(Sign) AS visits
 								    FROM test.visits
 								    GROUP BY CounterID
 								) USING CounterID
 								ORDER BY hits DESC
 								LIMIT 10
 								```
 								```text
 								┌─CounterID─┬───hits─┬─visits─┐
 								│   1143050 │ 523264 │  13665 │
 								│    731962 │ 475698 │ 102716 │
 								│    722545 │ 337212 │ 108187 │
 								│    722889 │ 252197 │  10547 │
 								│   2237260 │ 196036 │   9522 │
 								│  23057320 │ 147211 │   7689 │
 								│    722818 │  90109 │  17847 │
 								│     48221 │  85379 │   4652 │
 								│  19762435 │  77807 │   7026 │
 								│    722884 │  77492 │  11056 │
 								└───────────┴────────┴────────┘
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								У подзапросов нет возможности задать имена и нет возможности их использовать для того, чтобы сослаться на столбец из конкретного подзапроса.
 								Требуется, чтобы столбцы, указанные в USING, назывались одинаково в обоих подзапросах, а остальные столбцы - по-разному. Изменить имена столбцов в подзапросах можно с помощью алиасов (в примере используются алиасы hits и visits).
 								В секции USING указывается один или несколько столбцов для соединения, что обозначает условие на равенство этих столбцов. Список столбцов задаётся без скобок. Более сложные условия соединения не поддерживаются.
 								"Правая" таблица (результат подзапроса) располагается в оперативке. Если оперативки не хватает, вы не сможете выполнить JOIN.
 								В запросе (на одном уровне) можно указать только один JOIN. Чтобы выполнить несколько JOIN-ов, вы можете разместить их в подзапросах.
 								Каждый раз для выполнения запроса с одинаковым JOIN-ом, подзапрос выполняется заново - результат не кэшируется. Это можно избежать, используя специальный движок таблиц Join, представляющий собой подготовленное множество для соединения, которое всегда находится в оперативке. Подробнее смотрите в разделе "Движки таблиц, Join".
 								В некоторых случаях, вместо использования JOIN достаточно использовать IN - это более эффективно.
 								Среди разных типов JOIN-ов, наиболее эффективен ANY LEFT JOIN, затем ANY INNER JOIN; наименее эффективны ALL LEFT JOIN и ALL INNER JOIN.
 								Если JOIN необходим для соединения с таблицами измерений (dimension tables - сравнительно небольшие таблицы, которые содержат свойства измерений - например, имена для рекламных кампаний), то использование JOIN может быть не очень удобным из-за громоздкости синтаксиса, а также из-за того, что правая таблица читается заново при каждом запросе. Специально для таких случаев существует функциональность "Внешние словари", которую следует использовать вместо JOIN. Подробнее смотрите раздел "Внешние словари".
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция WHERE
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Секция WHERE, если есть, должна содержать выражение, имеющее тип UInt8. Обычно это какое-либо выражение с операторами сравнения и логическими операторами.
 								Это выражение будет использовано для фильтрации данных перед всеми остальными преобразованиями.
 								Выражение анализируется на возможность использования индексов, если индексы поддерживаются движком таблицы.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция PREWHERE
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Имеет такой же смысл, как и секция WHERE. Отличие состоит в том, какие данные читаются из таблицы.
 								При использовании PREWHERE, из таблицы сначала читаются только столбцы, необходимые для выполнения PREWHERE. Затем читаются остальные столбцы, нужные для выполнения запроса, но из них только те блоки, в которых выражение в PREWHERE истинное.
 								PREWHERE имеет смысл использовать, если есть условия фильтрации, не подходящие под индексы, которые использует меньшинство столбцов из тех, что есть в запросе, но достаточно сильно фильтрует данные. Таким образом, сокращается количество читаемых данных.
 								Например, полезно писать PREWHERE для запросов, которые вынимают много столбцов, но в которых фильтрация производится лишь по нескольким столбцам.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								PREWHERE поддерживается только таблицами семейства `*MergeTree`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								В запросе могут быть одновременно указаны секции PREWHERE и WHERE. В этом случае, PREWHERE идёт перед WHERE.
 								Следует иметь ввиду, что указывать в PREWHERE только столбцы, по которым существует индекс, имеет мало смысла, так как при использовании индекса и так читаются лишь блоки данных, соответствующие индексу.
 								Если настройка optimize_move_to_prewhere выставлена в 1, то при отсутствии PREWHERE, система будет автоматически переносить части выражений из WHERE в PREWHERE согласно некоторой эвристике.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция GROUP BY
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Это одна из наиболее важных частей СУБД.
 								Секция GROUP BY, если есть, должна содержать список выражений. Каждое выражение далее будем называть "ключом".
 								При этом, все выражения в секциях SELECT, HAVING, ORDER BY, должны вычисляться из ключей или из агрегатных функций. То есть, каждый выбираемый из таблицы столбец, должен использоваться либо в ключах, либо внутри агрегатных функций.
 								Если запрос содержит столбцы таблицы только внутри агрегатных функций, то секция GROUP BY может не указываться, и подразумевается агрегация по пустому набору ключей.
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT
 								    count(),
 								    median(FetchTiming > 60 ? 60 : FetchTiming),
 								    count() - sum(Refresh)
 								FROM hits
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Но, в отличие от стандартного SQL, если в таблице нет строк (вообще нет или после фильтрации с помощью WHERE), в качестве результата возвращается пустой результат, а не результат из одной строки, содержащий "начальные" значения агрегатных функций.
 								В отличие от MySQL (и в соответствии со стандартом SQL), вы не можете получить какое-нибудь значение некоторого столбца, не входящего в ключ или агрегатную функцию (за исключением константных выражений). Для обхода этого вы можете воспользоваться агрегатной функцией any (получить первое попавшееся значение) или min/max.
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT
 								    domainWithoutWWW(URL) AS domain,
 								    count(),
-												Fixed russian inclusions into english version of the document.

											
										
										
											2018-01-19 14:36:40 +00:00
+								    any(Title) AS title -- getting the first occurred page header for each domain.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								FROM hits
 								GROUP BY domain
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								GROUP BY вычисляет для каждого встретившегося различного значения ключей, набор значений агрегатных функций.
 								Не поддерживается GROUP BY по столбцам-массивам.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Не поддерживается указание констант в качестве аргументов агрегатных функций. Пример: sum(1). Вместо этого, вы можете избавиться от констант. Пример: `count()`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								#### Модификатор WITH TOTALS
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Если указан модификатор WITH TOTALS, то будет посчитана ещё одна строчка, в которой в столбцах-ключах будут содержаться значения по умолчанию (нули, пустые строки), а в столбцах агрегатных функций - значения, посчитанные по всем строкам ("тотальные" значения).
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Эта дополнительная строчка выводится в форматах JSON\*, TabSeparated\*, Pretty\* отдельно от остальных строчек. В остальных форматах эта строчка не выводится.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								В форматах JSON\* строчка выводится отдельным полем totals. В форматах TabSeparated\* строчка выводится после основного результата, и перед ней (после остальных данных) вставляется пустая строка. В форматах Pretty\* строчка выводится отдельной табличкой после основного результата.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`WITH TOTALS` может выполняться по-разному при наличии HAVING. Поведение зависит от настройки totals_mode.
 								По умолчанию `totals_mode = 'before_having'`. В этом случае totals считается по всем строчкам, включая непрошедших через HAVING и max_rows_to_group_by.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Остальные варианты учитывают в totals только строчки, прошедшие через HAVING, и имеют разное поведение при наличии настройки `max_rows_to_group_by` и `group_by_overflow_mode = 'any'`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`after_having_exclusive` - не учитывать строчки, не прошедшие `max_rows_to_group_by`. То есть в totals попадёт меньше или столько же строчек, чем если бы `max_rows_to_group_by` не было.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`after_having_inclusive` - учитывать в totals все строчки, не прошедшие max_rows_to_group_by. То есть в totals попадёт больше или столько же строчек, чем если бы `max_rows_to_group_by` не было.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`after_having_auto` - считать долю строчек, прошедших через HAVING. Если она больше некоторого значения (по умолчанию - 50%), то включить все строчки, не прошедшие max_rows_to_group_by в totals, иначе - не включить.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`totals_auto_threshold` - по умолчанию 0.5. Коэффициент для работы `after_having_auto`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Если `max_rows_to_group_by` и `group_by_overflow_mode = 'any'` не используются, то все варианты вида `after_having` не отличаются, и вы можете использовать любой из них, например, `after_having_auto`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Вы можете использовать WITH TOTALS в подзапросах, включая подзапросы в секции JOIN (в этом случае соответствующие тотальные значения будут соединены).
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								#### GROUP BY во внешней памяти
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Существует возможность включить сброс временных данных на диск для ограничения потребления оперативной памяти при GROUP BY.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Настройка `max_bytes_before_external_group_by` - потребление оперативки, при котором временные данные GROUP BY сбрасываются в файловую систему. Если равно 0 (по умолчанию) - значит выключено.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При использовании `max_bytes_before_external_group_by` рекомендуется выставить max_memory_usage примерно в два раза больше. Это следует сделать, потому что агрегация выполняется в две стадии: чтение и формирование промежуточных данных (1) и слияние промежуточных данных (2). Сброс данных на файловую систему может производиться только на стадии 1. Если сброса временных данных не было, то на стадии 2 может потребляться до такого же объёма памяти, как на стадии 1.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Например, если у вас `max_memory_usage` было выставлено в 10000000000, и вы хотите использовать внешнюю агрегацию, то имеет смысл выставить `max_bytes_before_external_group_by` в 10000000000, а max_memory_usage в 20000000000. При срабатывании внешней агрегации (если был хотя бы один сброс временных данных в файловую систему) максимальное потребление оперативки будет лишь чуть-чуть больше `max_bytes_before_external_group_by`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При распределённой обработке запроса внешняя агрегация производится на удалённых серверах. Для того чтобы на сервере-инициаторе запроса использовалось немного оперативки, нужно выставить настройку `distributed_aggregation_memory_efficient` в 1.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При слиянии данных, сброшенных на диск, а также при слиянии результатов с удалённых серверов, при включенной настройке `distributed_aggregation_memory_efficient`, потребляется до 1/256 \* количество потоков от общего объёма оперативки.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При включенной внешней агрегации, если данных было меньше `max_bytes_before_external_group_by` (то есть сброса данных не было), то запрос работает так же быстро, как без внешней агрегации. Если же какие-то временные данные были сброшены, то время выполнения будет в несколько раз больше (примерно в три раза).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Если после GROUP BY у вас есть ORDER BY с небольшим LIMIT, то на ORDER BY не будет тратиться существенного количества оперативки.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Но если есть ORDER BY без LIMIT, то не забудьте включить внешнюю сортировку (`max_bytes_before_external_sort`).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция LIMIT N BY
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Minor text edits.

											
										
										
											2017-09-06 05:48:35 +00:00
+								LIMIT N BY COLUMNS выбирает топ N строк для каждой группы COLUMNS. LIMIT N BY не связан с LIMIT и они могут использоваться в одном запросе. Ключ для LIMIT N BY может содержать произвольное число колонок или выражений.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT
 								    domainWithoutWWW(URL) AS domain,
 								    domainWithoutWWW(REFERRER_URL) AS referrer,
 								    device_type,
 								    count() cnt
 								FROM hits
 								GROUP BY domain, referrer, device_type
 								ORDER BY cnt DESC
 								LIMIT 5 BY domain, device_type
 								LIMIT 100
 								```
 								Запрос выберет топ 5 рефереров для каждой пары `domain, device_type`, но не более 100 строк (`LIMIT n BY + LIMIT`).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция HAVING
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Позволяет отфильтровать результат, полученный после GROUP BY, аналогично секции WHERE.
 								WHERE и HAVING отличаются тем, что WHERE выполняется до агрегации (GROUP BY), а HAVING - после.
 								Если агрегации не производится, то HAVING использовать нельзя.
-												Concept on floating point numbers is rewrited.

											
										
										
											2017-12-07 16:16:11 +00:00
+								<a name="query_language-queries-order_by"></a>
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция ORDER BY
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Секция ORDER BY содержит список выражений, к каждому из которых также может быть приписано DESC или ASC (направление сортировки). Если ничего не приписано - это аналогично приписыванию ASC. ASC - сортировка по возрастанию, DESC - сортировка по убыванию. Обозначение направления сортировки действует на одно выражение, а не на весь список. Пример: `ORDER BY Visits DESC, SearchPhrase`
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Для сортировки по значениям типа String есть возможность указать collation (сравнение). Пример: `ORDER BY SearchPhrase COLLATE 'tr'` - для сортировки по поисковой фразе, по возрастанию, с учётом турецкого алфавита, регистронезависимо, при допущении, что строки в кодировке UTF-8. COLLATE может быть указан или не указан для каждого выражения в ORDER BY независимо. Если есть ASC или DESC, то COLLATE указывается после них. При использовании COLLATE сортировка всегда регистронезависима.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Рекомендуется использовать COLLATE только для окончательной сортировки небольшого количества строк, так как производительность сортировки с указанием COLLATE меньше, чем обычной сортировки по байтам.
 								Строки, для которых список выражений, по которым производится сортировка, принимает одинаковые значения, выводятся в произвольном порядке, который может быть также недетерминированным (каждый раз разным).
 								Если секция ORDER BY отсутствует, то, аналогично, порядок, в котором идут строки, не определён, и может быть недетерминированным.
 								При сортировке чисел с плавающей запятой, NaN-ы идут отдельно от остальных значений. Вне зависимости от порядка сортировки, NaN-ы помещаются в конец. То есть, при сортировке по возрастанию, они как будто больше всех чисел, а при сортировке по убыванию - как будто меньше всех.
 								Если кроме ORDER BY указан также не слишком большой LIMIT, то расходуется меньше оперативки. Иначе расходуется количество памяти, пропорциональное количеству данных для сортировки. При распределённой обработке запроса, если отсутствует GROUP BY, сортировка частично делается на удалённых серверах, а на сервере-инициаторе запроса производится слияние результатов. Таким образом, при распределённой сортировке, может сортироваться объём данных, превышающий размер памяти на одном сервере.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Существует возможность выполнять сортировку во внешней памяти (с созданием временных файлов на диске), если оперативной памяти не хватает. Для этого предназначена настройка `max_bytes_before_external_sort`. Если она выставлена в 0 (по умолчанию), то внешняя сортировка выключена. Если она включена, то при достижении объёмом данных для сортировки указанного количества байт, накопленные данные будут отсортированы и сброшены во временный файл. После того, как все данные будут прочитаны, будет произведено слияние всех сортированных файлов и выдача результата. Файлы записываются в директорию /var/lib/clickhouse/tmp/ (по умолчанию, может быть изменено с помощью параметра tmp_path) в конфиге.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								На выполнение запроса может расходоваться больше памяти, чем max_bytes_before_external_sort. Поэтому, значение этой настройки должно быть существенно меньше, чем max_memory_usage. Для примера, если на вашем сервере 128 GB оперативки, и вам нужно выполнить один запрос, то выставите max_memory_usage в 100 GB, а max_bytes_before_external_sort в 80 GB.
 								Внешняя сортировка работает существенно менее эффективно, чем сортировка в оперативке.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция SELECT
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								После вычислений, соответствующих всем перечисленным выше секциям, производится вычисление выражений, указанных в секции SELECT.
 								Вернее, вычисляются выражения, стоящие над агрегатными функциями, если есть агрегатные функции.
 								Сами агрегатные функции и то, что под ними, вычисляются при агрегации (GROUP BY).
 								Эти выражения работают так, как будто применяются к отдельным строкам результата.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция DISTINCT
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Если указано DISTINCT, то из всех множеств полностью совпадающих строк результата, будет оставляться только одна строка.
 								Результат выполнения будет таким же, как если указано GROUP BY по всем указанным полям в SELECT-е и не указаны агрегатные функции. Но имеется несколько отличий от GROUP BY:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								-   DISTINCT может применяться совместно с GROUP BY;
 								-   при отсутствии ORDER BY и наличии LIMIT, запрос прекратит выполнение сразу после того, как будет прочитано необходимое количество различных строк - в этом случае использование DISTINCT существенно более оптимально;
 								-   блоки данных будут выдаваться по мере их обработки, не дожидаясь выполнения всего запроса.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								DISTINCT не поддерживается, если в SELECT-е присутствует хотя бы один столбец типа массив.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция LIMIT
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								LIMIT m позволяет выбрать из результата первые m строк.
 								LIMIT n, m позволяет выбрать из результата первые m строк после пропуска первых n строк.
 								n и m должны быть неотрицательными целыми числами.
 								При отсутствии секции ORDER BY, однозначно сортирующей результат, результат может быть произвольным и может являться недетерминированным.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция UNION ALL
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Произвольное количество запросов может быть объединено с помощью UNION ALL. Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT CounterID, 1 AS table, toInt64(count()) AS c
 								    FROM test.hits
 								    GROUP BY CounterID
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								UNION ALL
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								SELECT CounterID, 2 AS table, sum(Sign) AS c
 								    FROM test.visits
 								    GROUP BY CounterID
 								    HAVING c > 0
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Поддерживается только UNION ALL. Обычный UNION (UNION DISTINCT) не поддерживается. Если вам нужен UNION DISTINCT, то вы можете написать SELECT DISTINCT из подзапроса, содержащего UNION ALL.
 								Запросы - части UNION ALL могут выполняться параллельно, и их результаты могут возвращаться вперемешку.
 								Структура результатов (количество и типы столбцов) у запросов должна совпадать. Но имена столбцов могут отличаться. В этом случае, имена столбцов для общего результата будут взяты из первого запроса.
 								Запросы - части UNION ALL нельзя заключить в скобки. ORDER BY и LIMIT применяются к отдельным запросам, а не к общему результату. Если вам нужно применить какое-либо преобразование к общему результату, то вы можете разместить все запросы с UNION ALL в подзапросе в секции FROM.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция INTO OUTFILE
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При указании `INTO OUTFILE filename` (где filename - строковый литерал), результат запроса будет сохранён в файл filename.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								В отличие от MySQL, файл создаётся на стороне клиента. Если файл с таким именем уже существует, это приведёт к ошибке.
 								Функциональность доступна в клиенте командной строки и clickhouse-local (попытка выполнить запрос с INTO OUTFILE через HTTP интерфейс приведёт к ошибке).
 								Формат вывода по умолчанию - TabSeparated, как и в неинтерактивном режиме клиента командной строки.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Секция FORMAT
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								При указании FORMAT format вы можете получить данные в любом указанном формате.
 								Это может использоваться для удобства или для создания дампов.
 								Подробнее смотрите раздел "Форматы".
 								Если секция FORMAT отсутствует, то используется формат по умолчанию, который зависит от используемого интерфейса для доступа к БД и от настроек. Для HTTP интерфейса, а также для клиента командной строки, используемого в batch-режиме, по умолчанию используется формат TabSeparated. Для клиента командной строки, используемого в интерактивном режиме, по умолчанию используется формат PrettyCompact (прикольные таблички, компактные).
 								При использовании клиента командной строки данные на клиент передаются во внутреннем эффективном формате. При этом клиент самостоятельно интерпретирует секцию FORMAT запроса и форматирует данные на своей стороне (снимая нагрузку на сеть и сервер).
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Операторы IN
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Операторы `IN`, `NOT IN`, `GLOBAL IN`, `GLOBAL NOT IN` рассматриваются отдельно, так как их функциональность достаточно богатая.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								В качестве левой части оператора, может присутствовать как один столбец, так и кортеж.
 								Примеры:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT UserID IN (123, 456) FROM ...
 								SELECT (CounterID, UserID) IN ((34, 123), (101500, 456)) FROM ...
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Если слева стоит один столбец, входящий в индекс, а справа - множество констант, то при выполнении запроса, система воспользуется индексом.
 								Не перечисляйте слишком большое количество значений (миллионы) явно. Если множество большое - лучше загрузить его во временную таблицу (например, смотрите раздел "Внешние данные для обработки запроса"), и затем воспользоваться подзапросом.
 								В качестве правой части оператора может быть множество константных выражений, множество кортежей с константными выражениями (показано в примерах выше), а также имя таблицы или подзапрос SELECT в скобках.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Если в качестве правой части оператора указано имя таблицы (например, `UserID IN users`), то это эквивалентно подзапросу `UserID IN (SELECT * FROM users)`. Это используется при работе с внешними данными, отправляемым вместе с запросом. Например, вместе с запросом может быть отправлено множество идентификаторов посетителей, загруженное во временную таблицу users, по которому следует выполнить фильтрацию.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Если качестве правой части оператора, указано имя таблицы, имеющий движок Set (подготовленное множество, постоянно находящееся в оперативке), то множество не будет создаваться заново при каждом запросе.
 								В подзапросе может быть указано более одного столбца для фильтрации кортежей.
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT (CounterID, UserID) IN (SELECT CounterID, UserID FROM ...) FROM ...
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Типы столбцов слева и справа оператора IN, должны совпадать.
 								Оператор IN и подзапрос могут встречаться в любой части запроса, в том числе в агрегатных и лямбда функциях.
 								Пример:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT
 								    EventDate,
 								    avg(UserID IN
 								    (
 								        SELECT UserID
 								        FROM test.hits
 								        WHERE EventDate = toDate('2014-03-17')
 								    )) AS ratio
 								FROM test.hits
 								GROUP BY EventDate
 								ORDER BY EventDate ASC
 								```
 								```text
 								┌──EventDate─┬────ratio─┐
 								│ 2014-03-17 │        1 │
 								│ 2014-03-18 │ 0.807696 │
 								│ 2014-03-19 │ 0.755406 │
 								│ 2014-03-20 │ 0.723218 │
 								│ 2014-03-21 │ 0.697021 │
 								│ 2014-03-22 │ 0.647851 │
 								│ 2014-03-23 │ 0.648416 │
 								└────────────┴──────────┘
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Description of distributed_product_mode was added.
Many syntax errors was fixed which led to the warnings and errors of sphinx-build.

											
										
										
											2017-04-28 16:05:46 +00:00
+								за каждый день после 17 марта считаем долю хитов, сделанных посетителями, которые заходили на сайт 17 марта.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Подзапрос в секции IN на одном сервере всегда выполняется только один раз. Зависимых подзапросов не существует.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								<a name="queries-distributed-subrequests"></a>
-												Description of distributed_product_mode was added.
Many syntax errors was fixed which led to the warnings and errors of sphinx-build.

											
										
										
											2017-04-28 16:05:46 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								#### Распределённые подзапросы
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
 								Существует два варианта IN-ов с подзапросами (аналогично для JOIN-ов): обычный `IN` / `JOIN` и `GLOBAL IN` / `GLOBAL JOIN`. Они отличаются способом выполнения при распределённой обработке запроса.
-												WIP on documentation (#2692)

* Additional .gitignore entries

* Merge a bunch of small articles about system tables into single one

* Merge a bunch of small articles about formats into single one

* Adapt table with formats to English docs too

* Add SPb meetup link to main page

* Move Utilities out of top level of docs (the location is probably not yet final) + translate couple articles

* Merge MacOS.md into build_osx.md

* Move Data types higher in ToC

* Publish changelog on website alongside documentation

* Few fixes for en/table_engines/file.md

* Use smaller header sizes in changelogs

* Group up table engines inside ToC

* Move table engines out of top level too

* Specificy in ToC that query language is SQL based. Thats a bit excessive, but catches eye.

* Move stuff that is part of query language into respective folder

* Move table functions lower in ToC

* Lost redirects.txt update

* Do not rely on comments in yaml + fix few ru titles

* Extract major parts of queries.md into separate articles

* queries.md has been supposed to be removed

* Fix weird translation

* Fix a bunch of links

* There is only table of contents left

* "Query language" is actually part of SQL abbreviation

* Change filename in README.md too

* fix mistype

* s/formats\/interfaces/interfaces\/formats/g

* Remove extra clarification from header as it was too verbose, probably making it a bit more confusing

* Empty article was supposed to be hidden

* At least change incorrect title

* Move special links to the bottom of nav and slightly highlight them

* Skip hidden pages in bottom navigation too

* Make front page of documentation to be part of Introduction

* Make tables in introduction somewhat readable + move abbreviation definitions earlier

* Some introduction text refactoring

* Some docs introduction refactoring

* Use admonitions instead of divs

* Additional .gitignore

* Treat .gif as images too

* Clarify ToC item

											
										
										
											2018-07-20 17:35:34 +00:00
+								!!! attention
 								    Помните, что алгоритмы, описанные ниже, могут работать иначе в зависимости от [настройки](../operations/settings/settings.md#settings-distributed_product_mode) `distributed_product_mode`.
-												Description of distributed_product_mode was added.
Many syntax errors was fixed which led to the warnings and errors of sphinx-build.

											
										
										
											2017-04-28 16:05:46 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При использовании обычного IN-а, запрос отправляется на удалённые серверы, и на каждом из них выполняются подзапросы в секциях `IN` / `JOIN`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								При использовании `GLOBAL IN` / `GLOBAL JOIN-а`, сначала выполняются все подзапросы для `GLOBAL IN` / `GLOBAL JOIN-ов`, и результаты складываются во временные таблицы. Затем эти временные таблицы передаются на каждый удалённый сервер, и на них выполняются запросы, с использованием этих переданных временных данных.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Если запрос не распределённый, используйте обычный `IN` / `JOIN`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Следует быть внимательным при использовании подзапросов в секции `IN` / `JOIN` в случае распределённой обработки запроса.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Рассмотрим это на примерах. Пусть на каждом сервере кластера есть обычная таблица **local_table**. Пусть также есть таблица **distributed_table** типа **Distributed**, которая смотрит на все серверы кластера.
 								При запросе к распределённой таблице **distributed_table**, запрос будет отправлен на все удалённые серверы, и на них будет выполнен с использованием таблицы **local_table**.
 								Например, запрос
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM distributed_table
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								будет отправлен на все удалённые серверы в виде
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM local_table
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								, выполнен параллельно на каждом из них до стадии, позволяющей объединить промежуточные результаты; затем промежуточные результаты вернутся на сервер-инициатор запроса, будут на нём объединены, и финальный результат будет отправлен клиенту.
 								Теперь рассмотрим запрос с IN-ом:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM distributed_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM local_table WHERE CounterID = 34)
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								-   расчёт пересечения аудиторий двух сайтов.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Этот запрос будет отправлен на все удалённые серверы в виде
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM local_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM local_table WHERE CounterID = 34)
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								То есть, множество в секции IN будет собрано на каждом сервере независимо, только по тем данным, которые есть локально на каждом из серверов.
 								Это будет работать правильно и оптимально, если вы предусмотрели такой случай, и раскладываете данные по серверам кластера таким образом, чтобы данные одного UserID-а лежали только на одном сервере. В таком случае все необходимые данные будут присутствовать на каждом сервере локально. В противном случае результат будет посчитан неточно. Назовём этот вариант запроса "локальный IN".
 								Чтобы исправить работу запроса, когда данные размазаны по серверам кластера произвольным образом, можно было бы указать **distributed_table** внутри подзапроса. Запрос будет выглядеть так:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM distributed_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Этот запрос будет отправлен на все удалённые серверы в виде
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM local_table WHERE CounterID = 101500 AND UserID IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)
 								```
-												Removed deprecated functionality from documentation [#CLICKHOUSE-4].

											
										
										
											2017-03-28 00:53:28 +00:00
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								На каждом удалённом сервере начнёт выполняться подзапрос. Так как в подзапросе используется распределённая таблица, то подзапрос будет, на каждом удалённом сервере, снова отправлен на каждый удалённый сервер, в виде
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT UserID FROM local_table WHERE CounterID = 34
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Например, если у вас кластер из 100 серверов, то выполнение всего запроса потребует 10 000 элементарных запросов, что, как правило, является неприемлемым.
 								В таких случаях всегда следует использовать GLOBAL IN вместо IN. Рассмотрим его работу для запроса
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM distributed_table WHERE CounterID = 101500 AND UserID GLOBAL IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								На сервере-инициаторе запроса будет выполнен подзапрос
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT UserID FROM distributed_table WHERE CounterID = 34
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								, и результат будет сложен во временную таблицу в оперативке. Затем запрос будет отправлен на каждый удалённый сервер в виде
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								```sql
 								SELECT uniq(UserID) FROM local_table WHERE CounterID = 101500 AND UserID GLOBAL IN _data1
 								```
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												External editions are revised. English translation is actualised from 02.03.2018 version up to 26.03.2018.

											
										
										
											2018-03-26 13:16:59 +00:00
+								, и вместе с запросом, на каждый удалённый сервер будет отправлена временная таблица `_data1` (имя временной таблицы - implementation defined).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Это гораздо более оптимально, чем при использовании обычного IN. Но при этом, следует помнить о нескольких вещах:
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+.  При создании временной таблицы данные не уникализируются. Чтобы уменьшить объём передаваемых по сети данных, укажите в подзапросе DISTINCT (для обычного IN-а этого делать не нужно).
 .  Временная таблица будет передана на все удалённые серверы. Передача не учитывает топологию сети. Например, если 10 удалённых серверов расположены в удалённом относительно сервера-инициатора запроса датацентре, то по каналу в удалённый датацентр данные будет переданы 10 раз. Старайтесь не использовать большие множества при использовании GLOBAL IN.
 .  При передаче данных на удалённые серверы не настраивается ограничение использования сетевой полосы. Вы можете перегрузить сеть.
 .  Старайтесь распределять данные по серверам так, чтобы в GLOBAL IN-ах не было частой необходимости.
 .  Если в GLOBAL IN есть частая необходимость, то спланируйте размещение кластера ClickHouse таким образом, чтобы в каждом датацентре была хотя бы одна реплика каждого шарда, и среди них была быстрая сеть - чтобы запрос целиком можно было бы выполнить, передавая данные в пределах одного датацентра.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								В секции `GLOBAL IN` также имеет смысл указывать локальную таблицу - в случае, если эта локальная таблица есть только на сервере-инициаторе запроса, и вы хотите воспользоваться данными из неё на удалённых серверах.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Экстремальные значения
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Вы можете получить в дополнение к результату также минимальные и максимальные значения по столбцам результата. Для этого выставите настройку **extremes** в 1. Минимумы и максимумы считаются для числовых типов, дат, дат-с-временем. Для остальных столбцов будут выведены значения по умолчанию.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Вычисляются дополнительные две строчки - минимумы и максимумы, соответственно. Эти дополнительные две строчки выводятся в форматах JSON\*, TabSeparated\*, Pretty\* отдельно от остальных строчек. В остальных форматах они не выводится.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								В форматах JSON\* экстремальные значения выводятся отдельным полем extremes. В форматах TabSeparated\* строчка выводится после основного результата и после totals, если есть. Перед ней (после остальных данных) вставляется пустая строка. В форматах Pretty\* строчка выводится отдельной табличкой после основного результата и после totals, если есть.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Экстремальные значения считаются по строчкам, прошедшим через LIMIT. Но при этом, при использовании LIMIT offset, size, строчки до offset учитываются в extremes. В потоковых запросах, в результате может учитываться также небольшое количество строчек, прошедших LIMIT.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								### Замечания
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								В секциях `GROUP BY`, `ORDER BY`, в отличие от диалекта MySQL, и в соответствии со стандартным SQL, не поддерживаются позиционные аргументы.
 								Например, если вы напишите `GROUP BY 1, 2` - то это будет воспринято, как группировка по константам (то есть, агрегация всех строк в одну).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Вы можете использовать синонимы (алиасы `AS`) в любом месте запроса.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								В любом месте запроса, вместо выражения, может стоять звёздочка. При анализе запроса звёздочка раскрывается в список всех столбцов таблицы (за исключением `MATERIALIZED` и `ALIAS` столбцов). Есть лишь немного случаев, когда оправдано использовать звёздочку:
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								-   при создании дампа таблицы;
 								-   для таблиц, содержащих всего несколько столбцов - например, системных таблиц;
 								-   для получения информации о том, какие столбцы есть в таблице; в этом случае, укажите `LIMIT 1`. Но лучше используйте запрос `DESC TABLE`;
 								-   при наличии сильной фильтрации по небольшому количеству столбцов с помощью `PREWHERE`;
 								-   в подзапросах (так как из подзапросов выкидываются столбцы, не нужные для внешнего запроса).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								В других случаях использование звёздочки является издевательством над системой, так как вместо преимуществ столбцовой СУБД вы получаете недостатки. То есть использовать звёздочку не рекомендуется.