ClickHouse/docs/ru/index.md

# Что такое ClickHouse

ClickHouse - столбцовая система управления базами данных (СУБД) для онлайн обработки аналитических запросов (OLAP).

В обычной, "строковой" СУБД, данные хранятся в таком порядке:

| Строка | WatchID     | JavaEnable | Title              | GoodEvent | EventTime           |
| ------ | ----------- | ---------- | ------------------ | --------- | ------------------- |
| #0     | 89354350662 | 1          | Investor Relations | 1         | 2016-05-18 05:19:20 |
| #1     | 90329509958 | 0          | Contact us         | 1         | 2016-05-18 08:10:20 |
| #2     | 89953706054 | 1          | Mission            | 1         | 2016-05-18 07:38:00 |
| #N     | ...         | ...        | ...                | ...       | ...                 |

То есть, значения, относящиеся к одной строке, физически хранятся рядом.

Примеры строковых СУБД: MySQL, Postgres, MS SQL Server.
{: .grey }

В столбцовых СУБД, данные хранятся в таком порядке:

| Строка:     | #0                  | #1                  | #2                  | #N                  |
| ----------- | ------------------- | ------------------- | ------------------- | ------------------- |
| WatchID:    | 89354350662         | 90329509958         | 89953706054         | ...                 |
| JavaEnable: | 1                   | 0                   | 1                   | ...                 |
| Title:      | Investor Relations  | Contact us          | Mission             | ...                 |
| GoodEvent:  | 1                   | 1                   | 1                   | ...                 |
| EventTime:  | 2016-05-18 05:19:20 | 2016-05-18 08:10:20 | 2016-05-18 07:38:00 | ...                 |


В примерах изображён только порядок расположения данных.
То есть, значения из разных столбцов хранятся отдельно, а данные одного столбца - вместе.

Примеры столбцовых СУБД: Vertica, Paraccel (Actian Matrix, Amazon Redshift), Sybase IQ, Exasol, Infobright, InfiniDB, MonetDB (VectorWise, Actian Vector), LucidDB, SAP HANA, Google Dremel, Google PowerDrill, Druid, kdb+.
{: .grey }

Разный порядок хранения данных лучше подходит для разных сценариев работы.
Сценарий работы с данными - это то, какие производятся запросы, как часто и в каком соотношении; сколько читается данных на запросы каждого вида - строк, столбцов, байт; как соотносятся чтения и обновления данных; какой рабочий размер данных и насколько локально он используется; используются ли транзакции и с какой изолированностью; какие требования к дублированию данных и логической целостности; требования к задержкам на выполнение и пропускной способности запросов каждого вида и т. п.

Чем больше нагрузка на систему, тем более важной становится специализация под сценарий работы, и тем более конкретной становится эта специализация. Не существует системы, одинаково хорошо подходящей под существенно различные сценарии работы. Если система подходит под широкое множество сценариев работы, то при достаточно большой нагрузке, система будет справляться со всеми сценариями работы плохо, или справляться хорошо только с одним из сценариев работы.

## Ключевые особенности OLAP сценария работы

-   подавляющее большинство запросов - на чтение;
-   данные обновляются достаточно большими пачками (> 1000 строк), а не по одной строке, или не обновляются вообще;
-   данные добавляются в БД, но не изменяются;
-   при чтении, вынимается достаточно большое количество строк из БД, но только небольшое подмножество столбцов;
-   таблицы являются "широкими", то есть, содержат большое количество столбцов;
-   запросы идут сравнительно редко (обычно не более сотни в секунду на сервер);
-   при выполнении простых запросов, допустимы задержки в районе 50 мс;
-   значения в столбцах достаточно мелкие - числа и небольшие строки (пример - 60 байт на URL);
-   требуется высокая пропускная способность при обработке одного запроса (до миллиардов строк в секунду на один сервер);
-   транзакции отсутствуют;
-   низкие требования к консистентности данных;
-   в запросе одна большая таблица, все таблицы кроме одной маленькие;
-   результат выполнения запроса существенно меньше исходных данных - то есть, данные фильтруются или агрегируются; результат выполнения помещается в оперативку на одном сервере.

Легко видеть, что OLAP сценарий работы существенно отличается от других распространённых сценариев работы (например, OLTP или Key-Value сценариев работы). Таким образом, не имеет никакого смысла пытаться использовать OLTP или Key-Value БД для обработки аналитических запросов, если вы хотите получить приличную производительность ("выше плинтуса"). Например, если вы попытаетесь использовать для аналитики MongoDB или Redis - вы получите анекдотически низкую производительность по сравнению с OLAP-СУБД.

## Причины, по которым столбцовые СУБД лучше подходят для OLAP сценария

Столбцовые СУБД лучше (от 100 раз по скорости обработки большинства запросов) подходят для OLAP сценария работы. Причины в деталях будут разъяснены ниже, а сам факт проще продемонстрировать визуально:

**Строковые СУБД**

![Строковые](images/row_oriented.gif#)

**Столбцовые СУБД**

![Столбцовые](images/column_oriented.gif#)

Видите разницу?

### По вводу-выводу

1. Для выполнения аналитического запроса, требуется прочитать небольшое количество столбцов таблицы. В столбцовой БД для этого можно читать только нужные данные. Например, если вам требуется только 5 столбцов из 100, то следует рассчитывать на 20-кратное уменьшение ввода-вывода.
2. Так как данные читаются пачками, то их проще сжимать. Данные, лежащие по столбцам также лучше сжимаются. За счёт этого, дополнительно уменьшается объём ввода-вывода.
3. За счёт уменьшения ввода-вывода, больше данных влезает в системный кэш.

Например, для запроса "посчитать количество записей для каждой рекламной системы", требуется прочитать один столбец "идентификатор рекламной системы", который занимает 1 байт в несжатом виде. Если большинство переходов было не с рекламных систем, то можно рассчитывать хотя бы на десятикратное сжатие этого столбца. При использовании быстрого алгоритма сжатия, возможно разжатие данных со скоростью более нескольких гигабайт несжатых данных в секунду. То есть, такой запрос может выполняться со скоростью около нескольких миллиардов строк в секунду на одном сервере. На практике, такая скорость действительно достигается.

<details markdown="1"><summary>Пример</summary>
```bash
$ clickhouse-client
ClickHouse client version 0.0.52053.
Connecting to localhost:9000.
Connected to ClickHouse server version 0.0.52053.
```
```sql
SELECT CounterID, count() FROM hits GROUP BY CounterID ORDER BY count() DESC LIMIT 20
```
```text
┌─CounterID─┬──count()─┐
│    114208 │ 56057344 │
│    115080 │ 51619590 │
│      3228 │ 44658301 │
│     38230 │ 42045932 │
│    145263 │ 42042158 │
│     91244 │ 38297270 │
│    154139 │ 26647572 │
│    150748 │ 24112755 │
│    242232 │ 21302571 │
│    338158 │ 13507087 │
│     62180 │ 12229491 │
│     82264 │ 12187441 │
│    232261 │ 12148031 │
│    146272 │ 11438516 │
│    168777 │ 11403636 │
│   4120072 │ 11227824 │
│  10938808 │ 10519739 │
│     74088 │  9047015 │
│    115079 │  8837972 │
│    337234 │  8205961 │
└───────────┴──────────┘
```
</details>

### По вычислениям

Так как для выполнения запроса надо обработать достаточно большое количество строк, становится актуальным диспетчеризовывать все операции не для отдельных строк, а для целых векторов, или реализовать движок выполнения запроса так, чтобы издержки на диспетчеризацию были примерно нулевыми. Если этого не делать, то при любой не слишком плохой дисковой подсистеме, интерпретатор запроса неизбежно упрётся в CPU.
Имеет смысл не только хранить данные по столбцам, но и обрабатывать их, по возможности, тоже по столбцам.

Есть два способа это сделать:

1. Векторный движок. Все операции пишутся не для отдельных значений, а для векторов. То есть, вызывать операции надо достаточно редко, и издержки на диспетчеризацию становятся пренебрежимо маленькими. Код операции содержит в себе хорошо оптимизированный внутренний цикл.

2. Кодогенерация. Для запроса генерируется код, в котором подставлены все косвенные вызовы.

В "обычных" БД этого не делается, так как не имеет смысла при выполнении простых запросов. Хотя есть исключения. Например, в MemSQL кодогенерация используется для уменьшения latency при выполнении SQL запросов. Для сравнения, в аналитических СУБД требуется оптимизация throughput, а не latency.

Стоит заметить, что для эффективности по CPU требуется, чтобы язык запросов был декларативным (SQL, MDX) или хотя бы векторным (J, K). То есть, чтобы запрос содержал циклы только в неявном виде, открывая возможности для оптимизации.

[Оригинальная статья](https://clickhouse.yandex/docs/ru/) <!--hide-->
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
+								# Что такое ClickHouse
-												Make tables in introduction somewhat readable + move abbreviation definitions earlier

											
										
										
											2018-07-20 09:18:08 +00:00
+								ClickHouse - столбцовая система управления базами данных (СУБД) для онлайн обработки аналитических запросов (OLAP).
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								В обычной, "строковой" СУБД, данные хранятся в таком порядке:
-												More docs fixes (#3068)

* lost backtick

* back to short examples on docs front page

* publish sitemap_static.xml too

* add link to "fa" sitemap

* add "fa" to robots.txt

											
										
										
											2018-09-07 10:27:44 +00:00
+								| Строка | WatchID     | JavaEnable | Title              | GoodEvent | EventTime           |
 								| ------ | ----------- | ---------- | ------------------ | --------- | ------------------- |
 								| #0     | 89354350662 | 1          | Investor Relations | 1         | 2016-05-18 05:19:20 |
 								| #1     | 90329509958 | 0          | Contact us         | 1         | 2016-05-18 08:10:20 |
 								| #2     | 89953706054 | 1          | Mission            | 1         | 2016-05-18 07:38:00 |
 								| #N     | ...         | ...        | ...                | ...       | ...                 |
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												Some introduction text refactoring

											
										
										
											2018-07-20 09:34:42 +00:00
+								То есть, значения, относящиеся к одной строке, физически хранятся рядом.
 								Примеры строковых СУБД: MySQL, Postgres, MS SQL Server.
 								{: .grey }
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								В столбцовых СУБД, данные хранятся в таком порядке:
-												Some introduction text refactoring

											
										
										
											2018-07-20 09:34:42 +00:00
+								| Строка:     | #0                  | #1                  | #2                  | #N                  |
-												Make tables in introduction somewhat readable + move abbreviation definitions earlier

											
										
										
											2018-07-20 09:18:08 +00:00
+								| ----------- | ------------------- | ------------------- | ------------------- | ------------------- |
-												More docs fixes (#3068)

* lost backtick

* back to short examples on docs front page

* publish sitemap_static.xml too

* add link to "fa" sitemap

* add "fa" to robots.txt

											
										
										
											2018-09-07 10:27:44 +00:00
+								| WatchID:    | 89354350662         | 90329509958         | 89953706054         | ...                 |
-												Make tables in introduction somewhat readable + move abbreviation definitions earlier

											
										
										
											2018-07-20 09:18:08 +00:00
+								| JavaEnable: | 1                   | 0                   | 1                   | ...                 |
 								| Title:      | Investor Relations  | Contact us          | Mission             | ...                 |
 								| GoodEvent:  | 1                   | 1                   | 1                   | ...                 |
 								| EventTime:  | 2016-05-18 05:19:20 | 2016-05-18 08:10:20 | 2016-05-18 07:38:00 | ...                 |
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								В примерах изображён только порядок расположения данных.
 								То есть, значения из разных столбцов хранятся отдельно, а данные одного столбца - вместе.
-												Some introduction text refactoring

											
										
										
											2018-07-20 09:34:42 +00:00
+								Примеры столбцовых СУБД: Vertica, Paraccel (Actian Matrix, Amazon Redshift), Sybase IQ, Exasol, Infobright, InfiniDB, MonetDB (VectorWise, Actian Vector), LucidDB, SAP HANA, Google Dremel, Google PowerDrill, Druid, kdb+.
 								{: .grey }
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								Разный порядок хранения данных лучше подходит для разных сценариев работы.
 								Сценарий работы с данными - это то, какие производятся запросы, как часто и в каком соотношении; сколько читается данных на запросы каждого вида - строк, столбцов, байт; как соотносятся чтения и обновления данных; какой рабочий размер данных и насколько локально он используется; используются ли транзакции и с какой изолированностью; какие требования к дублированию данных и логической целостности; требования к задержкам на выполнение и пропускной способности запросов каждого вида и т. п.
 								Чем больше нагрузка на систему, тем более важной становится специализация под сценарий работы, и тем более конкретной становится эта специализация. Не существует системы, одинаково хорошо подходящей под существенно различные сценарии работы. Если система подходит под широкое множество сценариев работы, то при достаточно большой нагрузке, система будет справляться со всеми сценариями работы плохо, или справляться хорошо только с одним из сценариев работы.
-												Some docs introduction refactoring

											
										
										
											2018-07-20 12:47:37 +00:00
+								## Ключевые особенности OLAP сценария работы
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								-   подавляющее большинство запросов - на чтение;
 								-   данные обновляются достаточно большими пачками (> 1000 строк), а не по одной строке, или не обновляются вообще;
 								-   данные добавляются в БД, но не изменяются;
 								-   при чтении, вынимается достаточно большое количество строк из БД, но только небольшое подмножество столбцов;
 								-   таблицы являются "широкими", то есть, содержат большое количество столбцов;
 								-   запросы идут сравнительно редко (обычно не более сотни в секунду на сервер);
 								-   при выполнении простых запросов, допустимы задержки в районе 50 мс;
 								-   значения в столбцах достаточно мелкие - числа и небольшие строки (пример - 60 байт на URL);
 								-   требуется высокая пропускная способность при обработке одного запроса (до миллиардов строк в секунду на один сервер);
 								-   транзакции отсутствуют;
 								-   низкие требования к консистентности данных;
 								-   в запросе одна большая таблица, все таблицы кроме одной маленькие;
-												WIP on docs/website (#3383)

* CLICKHOUSE-4063: less manual html @ index.md

* CLICKHOUSE-4063: recommend markdown="1" in README.md

* CLICKHOUSE-4003: manually purge custom.css for now

* CLICKHOUSE-4064: expand <details> before any print (including to pdf)

* CLICKHOUSE-3927: rearrange interfaces/formats.md a bit

* CLICKHOUSE-3306: add few http headers

* Remove copy-paste introduced in #3392

* Hopefully better chinese fonts #3392

* get rid of tabs @ custom.css

* Apply comments and patch from #3384

* Add jdbc.md to ToC and some translation, though it still looks badly incomplete

* minor punctuation

* Add some backlinks to official website from mirrors that just blindly take markdown sources

* Do not make fonts extra light

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's//g' {}

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's/ sql/g' {}

* Remove outdated stuff from roadmap.md

* Not so light font on front page too

* Refactor Chinese formats.md to match recent changes in other languages

											
										
										
											2018-10-16 10:47:17 +00:00
+								-   результат выполнения запроса существенно меньше исходных данных - то есть, данные фильтруются или агрегируются; результат выполнения помещается в оперативку на одном сервере.
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												Some docs introduction refactoring

											
										
										
											2018-07-20 12:47:37 +00:00
+								Легко видеть, что OLAP сценарий работы существенно отличается от других распространённых сценариев работы (например, OLTP или Key-Value сценариев работы). Таким образом, не имеет никакого смысла пытаться использовать OLTP или Key-Value БД для обработки аналитических запросов, если вы хотите получить приличную производительность ("выше плинтуса"). Например, если вы попытаетесь использовать для аналитики MongoDB или Redis - вы получите анекдотически низкую производительность по сравнению с OLAP-СУБД.
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												Some docs introduction refactoring

											
										
										
											2018-07-20 12:47:37 +00:00
+								## Причины, по которым столбцовые СУБД лучше подходят для OLAP сценария
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												Update index.md

Небольшие исправления текста.
											
										
										
											2018-10-31 06:16:27 +00:00
+								Столбцовые СУБД лучше (от 100 раз по скорости обработки большинства запросов) подходят для OLAP сценария работы. Причины в деталях будут разъяснены ниже, а сам факт проще продемонстрировать визуально:
-												Some docs introduction refactoring

											
										
										
											2018-07-20 12:47:37 +00:00
 								**Строковые СУБД**
 								![Строковые](images/row_oriented.gif#)
 								**Столбцовые СУБД**
 								![Столбцовые](images/column_oriented.gif#)
 								Видите разницу?
 								### По вводу-выводу
-												Doc fixes: remove double placeholders; add them where missing. (#3923)

* Doc fix: add spaces where missing

* Doc fixes: rm double spaces

* Doc fixes: edit spaces

* Doc fixes: rm double spaces in /fa

* Revert "Doc fixes: rm double spaces in /fa"

This reverts commit bb879a62ef5fa965d989fea3b1b2a693d2016a2d.

* Doc fix: resolve all problems with double spaces in /fa

* Doc fix: add spaces for readability

* Doc fix: add spaces

* Fix spaces

											
										
										
											2018-12-25 15:25:43 +00:00
+. Для выполнения аналитического запроса, требуется прочитать небольшое количество столбцов таблицы. В столбцовой БД для этого можно читать только нужные данные. Например, если вам требуется только 5 столбцов из 100, то следует рассчитывать на 20-кратное уменьшение ввода-вывода.
 . Так как данные читаются пачками, то их проще сжимать. Данные, лежащие по столбцам также лучше сжимаются. За счёт этого, дополнительно уменьшается объём ввода-вывода.
 . За счёт уменьшения ввода-вывода, больше данных влезает в системный кэш.
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												Update index.md

Небольшие исправления текста.
											
										
										
											2018-10-31 06:16:27 +00:00
+								Например, для запроса "посчитать количество записей для каждой рекламной системы", требуется прочитать один столбец "идентификатор рекламной системы", который занимает 1 байт в несжатом виде. Если большинство переходов было не с рекламных систем, то можно рассчитывать хотя бы на десятикратное сжатие этого столбца. При использовании быстрого алгоритма сжатия, возможно разжатие данных со скоростью более нескольких гигабайт несжатых данных в секунду. То есть, такой запрос может выполняться со скоростью около нескольких миллиардов строк в секунду на одном сервере. На практике, такая скорость действительно достигается.
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												WIP on docs/website (#3383)

* CLICKHOUSE-4063: less manual html @ index.md

* CLICKHOUSE-4063: recommend markdown="1" in README.md

* CLICKHOUSE-4003: manually purge custom.css for now

* CLICKHOUSE-4064: expand <details> before any print (including to pdf)

* CLICKHOUSE-3927: rearrange interfaces/formats.md a bit

* CLICKHOUSE-3306: add few http headers

* Remove copy-paste introduced in #3392

* Hopefully better chinese fonts #3392

* get rid of tabs @ custom.css

* Apply comments and patch from #3384

* Add jdbc.md to ToC and some translation, though it still looks badly incomplete

* minor punctuation

* Add some backlinks to official website from mirrors that just blindly take markdown sources

* Do not make fonts extra light

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's//g' {}

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's/ sql/g' {}

* Remove outdated stuff from roadmap.md

* Not so light font on front page too

* Refactor Chinese formats.md to match recent changes in other languages

											
										
										
											2018-10-16 10:47:17 +00:00
+								<details markdown="1"><summary>Пример</summary>
-												DOCAPI-8530: Code blocks markup fix (#7060)

* Typo fix.

* Links fix.

* Fixed links in docs.

* More fixes.

* docs/en: cleaning some files

* docs/en: cleaning data_types

* docs/en: cleaning database_engines

* docs/en: cleaning development

* docs/en: cleaning getting_started

* docs/en: cleaning interfaces

* docs/en: cleaning operations

* docs/en: cleaning query_lamguage

* docs/en: cleaning en

* docs/ru: cleaning data_types

* docs/ru: cleaning index

* docs/ru: cleaning database_engines

* docs/ru: cleaning development

* docs/ru: cleaning general

* docs/ru: cleaning getting_started

* docs/ru: cleaning interfaces

* docs/ru: cleaning operations

* docs/ru: cleaning query_language

* docs: cleaning interfaces/http

* Update docs/en/data_types/array.md

decorated ```

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/getting_started/example_datasets/nyc_taxi.md

fixed typo

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/getting_started/example_datasets/ontime.md

fixed typo

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/interfaces/formats.md

fixed error

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/table_engines/custom_partitioning_key.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/utils/clickhouse-local.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/dicts/external_dicts_dict_sources.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/utils/clickhouse-local.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/json_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/json_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/other_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/other_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/date_time_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/table_engines/jdbc.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* docs: fixed error

* docs: fixed error

											
										
										
											2019-09-23 15:31:46 +00:00
+								```bash
-												Some introduction text refactoring

											
										
										
											2018-07-20 09:34:42 +00:00
+								$ clickhouse-client
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
+								ClickHouse client version 0.0.52053.
 								Connecting to localhost:9000.
 								Connected to ClickHouse server version 0.0.52053.
-												DOCAPI-8530: Code blocks markup fix (#7060)

* Typo fix.

* Links fix.

* Fixed links in docs.

* More fixes.

* docs/en: cleaning some files

* docs/en: cleaning data_types

* docs/en: cleaning database_engines

* docs/en: cleaning development

* docs/en: cleaning getting_started

* docs/en: cleaning interfaces

* docs/en: cleaning operations

* docs/en: cleaning query_lamguage

* docs/en: cleaning en

* docs/ru: cleaning data_types

* docs/ru: cleaning index

* docs/ru: cleaning database_engines

* docs/ru: cleaning development

* docs/ru: cleaning general

* docs/ru: cleaning getting_started

* docs/ru: cleaning interfaces

* docs/ru: cleaning operations

* docs/ru: cleaning query_language

* docs: cleaning interfaces/http

* Update docs/en/data_types/array.md

decorated ```

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/getting_started/example_datasets/nyc_taxi.md

fixed typo

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/getting_started/example_datasets/ontime.md

fixed typo

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/interfaces/formats.md

fixed error

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/table_engines/custom_partitioning_key.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/utils/clickhouse-local.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/dicts/external_dicts_dict_sources.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/utils/clickhouse-local.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/json_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/json_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/other_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/other_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/query_language/functions/date_time_functions.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* Update docs/en/operations/table_engines/jdbc.md

Co-Authored-By: BayoNet <da-daos@yandex.ru>

* docs: fixed error

* docs: fixed error

											
										
										
											2019-09-23 15:31:46 +00:00
+								```
 								```sql
 								SELECT CounterID, count() FROM hits GROUP BY CounterID ORDER BY count() DESC LIMIT 20
 								```
 								```text
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
+								┌─CounterID─┬──count()─┐
 								│    114208 │ 56057344 │
 								│    115080 │ 51619590 │
 								│      3228 │ 44658301 │
 								│     38230 │ 42045932 │
 								│    145263 │ 42042158 │
 								│     91244 │ 38297270 │
 								│    154139 │ 26647572 │
 								│    150748 │ 24112755 │
 								│    242232 │ 21302571 │
 								│    338158 │ 13507087 │
 								│     62180 │ 12229491 │
 								│     82264 │ 12187441 │
 								│    232261 │ 12148031 │
 								│    146272 │ 11438516 │
 								│    168777 │ 11403636 │
 								│   4120072 │ 11227824 │
 								│  10938808 │ 10519739 │
 								│     74088 │  9047015 │
 								│    115079 │  8837972 │
 								│    337234 │  8205961 │
 								└───────────┴──────────┘
-												WIP on docs/website (#3383)

* CLICKHOUSE-4063: less manual html @ index.md

* CLICKHOUSE-4063: recommend markdown="1" in README.md

* CLICKHOUSE-4003: manually purge custom.css for now

* CLICKHOUSE-4064: expand <details> before any print (including to pdf)

* CLICKHOUSE-3927: rearrange interfaces/formats.md a bit

* CLICKHOUSE-3306: add few http headers

* Remove copy-paste introduced in #3392

* Hopefully better chinese fonts #3392

* get rid of tabs @ custom.css

* Apply comments and patch from #3384

* Add jdbc.md to ToC and some translation, though it still looks badly incomplete

* minor punctuation

* Add some backlinks to official website from mirrors that just blindly take markdown sources

* Do not make fonts extra light

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's//g' {}

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's/ sql/g' {}

* Remove outdated stuff from roadmap.md

* Not so light font on front page too

* Refactor Chinese formats.md to match recent changes in other languages

											
										
										
											2018-10-16 10:47:17 +00:00
+								```
-												Hide example on main docs page behind spoiler

											
										
										
											2018-07-24 16:37:57 +00:00
+								</details>
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
-												Some docs introduction refactoring

											
										
										
											2018-07-20 12:47:37 +00:00
+								### По вычислениям
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								Так как для выполнения запроса надо обработать достаточно большое количество строк, становится актуальным диспетчеризовывать все операции не для отдельных строк, а для целых векторов, или реализовать движок выполнения запроса так, чтобы издержки на диспетчеризацию были примерно нулевыми. Если этого не делать, то при любой не слишком плохой дисковой подсистеме, интерпретатор запроса неизбежно упрётся в CPU.
 								Имеет смысл не только хранить данные по столбцам, но и обрабатывать их, по возможности, тоже по столбцам.
 								Есть два способа это сделать:
 . Векторный движок. Все операции пишутся не для отдельных значений, а для векторов. То есть, вызывать операции надо достаточно редко, и издержки на диспетчеризацию становятся пренебрежимо маленькими. Код операции содержит в себе хорошо оптимизированный внутренний цикл.
 . Кодогенерация. Для запроса генерируется код, в котором подставлены все косвенные вызовы.
-												Update index.md (#8849)


											
										
										
											2020-01-27 09:19:32 +00:00
+								В "обычных" БД этого не делается, так как не имеет смысла при выполнении простых запросов. Хотя есть исключения. Например, в MemSQL кодогенерация используется для уменьшения latency при выполнении SQL запросов. Для сравнения, в аналитических СУБД требуется оптимизация throughput, а не latency.
-												Document tree and project settings are prepared for site generation. Final step of NO-RST company.

											
										
										
											2018-02-11 08:18:20 +00:00
 								Стоит заметить, что для эффективности по CPU требуется, чтобы язык запросов был декларативным (SQL, MDX) или хотя бы векторным (J, K). То есть, чтобы запрос содержал циклы только в неявном виде, открывая возможности для оптимизации.
-												WIP on docs/website (#3383)

* CLICKHOUSE-4063: less manual html @ index.md

* CLICKHOUSE-4063: recommend markdown="1" in README.md

* CLICKHOUSE-4003: manually purge custom.css for now

* CLICKHOUSE-4064: expand <details> before any print (including to pdf)

* CLICKHOUSE-3927: rearrange interfaces/formats.md a bit

* CLICKHOUSE-3306: add few http headers

* Remove copy-paste introduced in #3392

* Hopefully better chinese fonts #3392

* get rid of tabs @ custom.css

* Apply comments and patch from #3384

* Add jdbc.md to ToC and some translation, though it still looks badly incomplete

* minor punctuation

* Add some backlinks to official website from mirrors that just blindly take markdown sources

* Do not make fonts extra light

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's//g' {}

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's/ sql/g' {}

* Remove outdated stuff from roadmap.md

* Not so light font on front page too

* Refactor Chinese formats.md to match recent changes in other languages

											
										
										
											2018-10-16 10:47:17 +00:00
 								[Оригинальная статья](https://clickhouse.yandex/docs/ru/) <!--hide-->