ClickHouse/docs/ru/query_language/functions/string_search_functions.md

# Функции поиска в строках

Во всех функциях, поиск регистрозависимый по умолчанию. Существуют варианты функций для регистронезависимого поиска.

## position(haystack, needle)
Поиск подстроки `needle` в строке `haystack`.
Возвращает позицию (в байтах) найденной подстроки, начиная с 1, или 0, если подстрока не найдена.

Для поиска без учета регистра используйте функцию `positionCaseInsensitive`.

## positionUTF8(haystack, needle)
Так же, как `position`, но позиция возвращается в кодовых точках Unicode. Работает при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8. Если допущение не выполнено -- то возвращает какой-нибудь результат (не кидает исключение).

Для поиска без учета регистра используйте функцию `positionCaseInsensitiveUTF8`.

## multiSearchAllPositions {#multiSearchAllPositions}

The same as [position](#position) but returns `Array` of positions (in bytes) of the found corresponding substrings in the string. Positions are indexed starting from 1.

The search is performed on sequences of bytes without respect to string encoding and collation.

- For case-insensitive ASCII search, use the function `multiSearchAllPositionsCaseInsensitive`.
- For search in UTF-8, use the function [multiSearchAllPositionsUTF8](#multiSearchAllPositionsUTF8).
- For case-insensitive UTF-8 search, use the function multiSearchAllPositionsCaseInsensitiveUTF8.

**Syntax** 

```sql
multiSearchAllPositions(haystack, [needle1, needle2, ..., needlen])
```

**Parameters**

- `haystack` — string, in which substring will to be searched. [String](../syntax.md#syntax-string-literal).
- `needle` —  substring to be searched. [String](../syntax.md#syntax-string-literal).

**Returned values**

- Array of starting positions in bytes (counting from 1), if the corresponding substring was found and 0 if not found.

**Example**

Query:

```sql
SELECT multiSearchAllPositions('Hello, World!', ['hello', '!', 'world'])
```

Result:

```text
┌─multiSearchAllPositions('Hello, World!', ['hello', '!', 'world'])─┐
│ [0,13,0]                                                          │
└───────────────────────────────────────────────────────────────────┘
```

## multiSearchAllPositionsUTF8 {#multiSearchAllPositionsUTF8}

Смотрите `multiSearchAllPositions`.

## multiSearchFirstPosition(haystack, [needle<sub>1</sub>, needle<sub>2</sub>, ..., needle<sub>n</sub>])

Так же, как и `position`, только возвращает оффсет первого вхождения любого из needles.

Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchFirstPositionCaseInsensitive, multiSearchFirstPositionUTF8, multiSearchFirstPositionCaseInsensitiveUTF8`.

## multiSearchFirstIndex(haystack, [needle<sub>1</sub>, needle<sub>2</sub>, ..., needle<sub>n</sub>])
Возвращает индекс `i` (нумерация с единицы) первой найденной строки needle<sub>i</sub> в строке `haystack` и 0 иначе.

Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchFirstIndexCaseInsensitive, multiSearchFirstIndexUTF8, multiSearchFirstIndexCaseInsensitiveUTF8`.

## multiSearchAny(haystack, [needle<sub>1</sub>, needle<sub>2</sub>, ..., needle<sub>n</sub>]) {#function-multisearchany}
Возвращает 1, если хотя бы одна подстрока needle<sub>i</sub> нашлась в строке `haystack` и 0 иначе.

Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchAnyCaseInsensitive, multiSearchAnyUTF8, multiSearchAnyCaseInsensitiveUTF8`.

!!! note "Примечание"
    Во всех функциях `multiSearch*` количество needles должно быть меньше 2<sup>8</sup> из-за особенностей реализации.

## match(haystack, pattern)
Проверка строки на соответствие регулярному выражению pattern. Регулярное выражение **re2**. Синтаксис регулярных выражений **re2** является более ограниченным по сравнению с регулярными выражениями **Perl** ([подробнее](https://github.com/google/re2/wiki/Syntax)).
Возвращает 0 (если не соответствует) или 1 (если соответствует).

Обратите внимание, что для экранирования в регулярном выражении, используется символ `\` (обратный слеш). Этот же символ используется для экранирования в строковых литералах. Поэтому, чтобы экранировать символ в регулярном выражении, необходимо написать в строковом литерале \\ (два обратных слеша).

Регулярное выражение работает со строкой как с набором байт. Регулярное выражение не может содержать нулевые байты.
Для шаблонов на поиск подстроки в строке, лучше используйте LIKE или position, так как они работают существенно быстрее.

## multiMatchAny(haystack, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])

То же, что и `match`, но возвращает ноль, если ни одно регулярное выражение не подошло и один, если хотя бы одно. Используется библиотека [hyperscan](https://github.com/intel/hyperscan) для соответствия регулярных выражений. Для шаблонов на поиск многих подстрок в строке, лучше используйте `multiSearchAny`, так как она работает существенно быстрее.

!!! note "Примечание"
    Длина любой строки из `haystack` должна быть меньше 2<sup>32</sup> байт, иначе бросается исключение. Это ограничение связано с ограничением hyperscan API.

## multiMatchAnyIndex(haystack, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])

То же, что и `multiMatchAny`, только возвращает любой индекс подходящего регулярного выражения.

## multiMatchAllIndices(haystack, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])

То же, что и `multiMatchAny`, только возвращает массив всех индексов всех подходящих регулярных выражений в любом порядке.

## multiFuzzyMatchAny(haystack, distance, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])

То же, что и `multiMatchAny`, но возвращает 1 если любой pattern соответствует haystack в пределах константного [редакционного расстояния](https://en.wikipedia.org/wiki/Edit_distance). Эта функция также находится в экспериментальном режиме и может быть очень медленной. За подробностями обращайтесь к [документации hyperscan](https://intel.github.io/hyperscan/dev-reference/compilation.html#approximate-matching).

## multiFuzzyMatchAnyIndex(haystack, distance, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])

То же, что и `multiFuzzyMatchAny`, только возвращает любой индекс подходящего регулярного выражения в пределах константного редакционного расстояния.

## multiFuzzyMatchAllIndices(haystack, distance, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])

То же, что и `multiFuzzyMatchAny`, только возвращает массив всех индексов всех подходящих регулярных выражений в любом порядке в пределах константного редакционного расстояния.

!!! note "Примечание"
    `multiFuzzyMatch*` функции не поддерживают UTF-8 закодированные регулярные выражения, и такие выражения рассматриваются как байтовые из-за ограничения hyperscan.

!!! note "Примечание"
    Чтобы выключить все функции, использующие hyperscan, используйте настройку `SET allow_hyperscan = 0;`.

## extract(haystack, pattern)
Извлечение фрагмента строки по регулярному выражению. Если haystack не соответствует регулярному выражению pattern, то возвращается пустая строка. Если регулярное выражение не содержит subpattern-ов, то вынимается фрагмент, который подпадает под всё регулярное выражение. Иначе вынимается фрагмент, который подпадает под первый subpattern.

## extractAll(haystack, pattern)
Извлечение всех фрагментов строки по регулярному выражению. Если haystack не соответствует регулярному выражению pattern, то возвращается пустая строка. Возвращается массив строк, состоящий из всех соответствий регулярному выражению. В остальном, поведение аналогично функции extract (по прежнему, вынимается первый subpattern, или всё выражение, если subpattern-а нет).

## like(haystack, pattern), оператор haystack LIKE pattern {#function-like}
Проверка строки на соответствие простому регулярному выражению.
Регулярное выражение может содержать метасимволы `%` и `_`.

`%` обозначает любое количество любых байт (в том числе, нулевое количество символов).

`_` обозначает один любой байт.

Для экранирования метасимволов, используется символ `\` (обратный слеш). Смотрите замечание об экранировании в описании функции match.

Для регулярных выражений вида `%needle%` действует более оптимальный код, который работает также быстро, как функция `position`.
Для остальных регулярных выражений, код аналогичен функции match.

## notLike(haystack, pattern), оператор haystack NOT LIKE pattern {#function-notlike}
То же, что like, но с отрицанием.

## ngramDistance(haystack, needle)

Вычисление 4-граммного расстояния между `haystack` и `needle`: считается симметрическая разность между двумя мультимножествами 4-грамм и нормализуется на сумму их мощностей. Возвращает число float от 0 до 1 -- чем ближе к нулю, тем больше строки похожи друг на друга. Если константный `needle` или `haystack` больше чем 32КБ, кидается исключение. Если некоторые строки из неконстантного `haystack` или `needle` больше 32КБ, расстояние всегда равно единице.

Для поиска без учета регистра и/или в формате UTF-8 используйте функции `ngramDistanceCaseInsensitive, ngramDistanceUTF8, ngramDistanceCaseInsensitiveUTF8`.

## ngramSearch(haystack, needle)

То же, что и `ngramDistance`, но вычисляет несимметричную разность между `needle` и `haystack` -- количество n-грамм из `needle` минус количество общих n-грамм, нормированное на количество n-грамм из `needle`. Чем ближе результат к единице, тем вероятнее, что `needle` внутри `haystack`. Может быть использовано для приближенного поиска.

Для поиска без учета регистра и/или в формате UTF-8 используйте функции `ngramSearchCaseInsensitive, ngramSearchUTF8, ngramSearchCaseInsensitiveUTF8`.


!!! note "Примечание"
    Для случая UTF-8 мы используем триграммное расстояние. Вычисление n-граммного расстояния не совсем честное. Мы используем 2-х байтные хэши для хэширования n-грамм, а затем вычисляем (не)симметрическую разность между хэш таблицами -- могут возникнуть коллизии. В формате UTF-8 без учета регистра мы не используем честную функцию `tolower` -- мы обнуляем 5-й бит (нумерация с нуля) каждого байта кодовой точки, а также первый бит нулевого байта, если байтов больше 1 -- это работает для латиницы и почти для всех кириллических букв.

[Оригинальная статья](https://clickhouse.tech/docs/ru/query_language/functions/string_search_functions/) <!--hide-->
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								# Функции поиска в строках
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
-												Fix typos

											
										
										
											2019-08-23 10:55:34 +00:00
+								Во всех функциях, поиск регистрозависимый по умолчанию. Существуют варианты функций для регистронезависимого поиска.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## position(haystack, needle)
-												Changes in accordance with comments from the developers.

											
										
										
											2018-04-28 11:45:37 +00:00
+								Поиск подстроки `needle` в строке `haystack`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает позицию (в байтах) найденной подстроки, начиная с 1, или 0, если подстрока не найдена.
-												Changes in accordance with comments from the developers.

											
										
										
											2018-04-28 11:45:37 +00:00
 								Для поиска без учета регистра используйте функцию `positionCaseInsensitive`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## positionUTF8(haystack, needle)
-												Better docs to the distance functions

											
										
										
											2019-03-09 17:07:45 +00:00
+								Так же, как `position`, но позиция возвращается в кодовых точках Unicode. Работает при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8. Если допущение не выполнено -- то возвращает какой-нибудь результат (не кидает исключение).
-												Changes in accordance with comments from the developers.

											
										
										
											2018-04-28 11:45:37 +00:00
 								Для поиска без учета регистра используйте функцию `positionCaseInsensitiveUTF8`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
+								## multiSearchAllPositions {#multiSearchAllPositions}
-												Docs for multi string search (#4123)


											
										
										
											2019-01-23 08:38:32 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								The same as [position](#position) but returns `Array` of positions (in bytes) of the found corresponding substrings in the string. Positions are indexed starting from 1.
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								The search is performed on sequences of bytes without respect to string encoding and collation.
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								- For case-insensitive ASCII search, use the function `multiSearchAllPositionsCaseInsensitive`.
 								- For search in UTF-8, use the function [multiSearchAllPositionsUTF8](#multiSearchAllPositionsUTF8).
 								- For case-insensitive UTF-8 search, use the function multiSearchAllPositionsCaseInsensitiveUTF8.
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								**Syntax**
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
 								```sql
 								multiSearchAllPositions(haystack, [needle1, needle2, ..., needlen])
 								```
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								**Parameters**
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								- `haystack` — string, in which substring will to be searched. [String](../syntax.md#syntax-string-literal).
 								- `needle` —  substring to be searched. [String](../syntax.md#syntax-string-literal).
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								**Returned values**
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								- Array of starting positions in bytes (counting from 1), if the corresponding substring was found and 0 if not found.
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								**Example**
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								Query:
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
 								```sql
 								SELECT multiSearchAllPositions('Hello, World!', ['hello', '!', 'world'])
 								```
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								Result:
-												Fixes for DOCSUP

											
										
										
											2019-10-22 12:27:52 +00:00
 								```text
 								┌─multiSearchAllPositions('Hello, World!', ['hello', '!', 'world'])─┐
 								│ [0,13,0]                                                          │
 								└───────────────────────────────────────────────────────────────────┘
 								```
 								## multiSearchAllPositionsUTF8 {#multiSearchAllPositionsUTF8}
-												Update string_search_functions.md
											
										
										
											2020-02-02 21:39:04 +00:00
+								Смотрите `multiSearchAllPositions`.
-												Docs for multi string search (#4123)


											
										
										
											2019-01-23 08:38:32 +00:00
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								## multiSearchFirstPosition(haystack, [needle<sub>1</sub>, needle<sub>2</sub>, ..., needle<sub>n</sub>])
-												Renamings, fixes to search algorithms, more tests

											
										
										
											2019-03-23 22:49:38 +00:00
 								Так же, как и `position`, только возвращает оффсет первого вхождения любого из needles.
 								Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchFirstPositionCaseInsensitive, multiSearchFirstPositionUTF8, multiSearchFirstPositionCaseInsensitiveUTF8`.
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								## multiSearchFirstIndex(haystack, [needle<sub>1</sub>, needle<sub>2</sub>, ..., needle<sub>n</sub>])
 								Возвращает индекс `i` (нумерация с единицы) первой найденной строки needle<sub>i</sub> в строке `haystack` и 0 иначе.
-												Docs for multi string search (#4123)


											
										
										
											2019-01-23 08:38:32 +00:00
-												Renamings, fixes to search algorithms, more tests

											
										
										
											2019-03-23 22:49:38 +00:00
+								Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchFirstIndexCaseInsensitive, multiSearchFirstIndexUTF8, multiSearchFirstIndexCaseInsensitiveUTF8`.
-												Docs for multi string search (#4123)


											
										
										
											2019-01-23 08:38:32 +00:00
-												DOCAPI-7695: Functions support for indexes (#6784)


											
										
										
											2019-09-06 09:07:23 +00:00
+								## multiSearchAny(haystack, [needle<sub>1</sub>, needle<sub>2</sub>, ..., needle<sub>n</sub>]) {#function-multisearchany}
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								Возвращает 1, если хотя бы одна подстрока needle<sub>i</sub> нашлась в строке `haystack` и 0 иначе.
-												Docs for multi string search (#4123)


											
										
										
											2019-01-23 08:38:32 +00:00
-												Renamings, fixes to search algorithms, more tests

											
										
										
											2019-03-23 22:49:38 +00:00
+								Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchAnyCaseInsensitive, multiSearchAnyUTF8, multiSearchAnyCaseInsensitiveUTF8`.
-												Docs for multi string search (#4123)


											
										
										
											2019-01-23 08:38:32 +00:00
-												more fixes
											
										
										
											2019-09-03 08:57:24 +00:00
+								!!! note "Примечание"
 								    Во всех функциях `multiSearch*` количество needles должно быть меньше 2<sup>8</sup> из-за особенностей реализации.
-												More restrictions added

											
										
										
											2019-03-28 15:12:37 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## match(haystack, pattern)
-												Update string_search_functions.md
											
										
										
											2018-09-25 18:19:15 +00:00
+								Проверка строки на соответствие регулярному выражению pattern. Регулярное выражение **re2**. Синтаксис регулярных выражений **re2** является более ограниченным по сравнению с регулярными выражениями **Perl** ([подробнее](https://github.com/google/re2/wiki/Syntax)).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает 0 (если не соответствует) или 1 (если соответствует).
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Обратите внимание, что для экранирования в регулярном выражении, используется символ `\` (обратный слеш). Этот же символ используется для экранирования в строковых литералах. Поэтому, чтобы экранировать символ в регулярном выражении, необходимо написать в строковом литерале \\ (два обратных слеша).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
 								Регулярное выражение работает со строкой как с набором байт. Регулярное выражение не может содержать нулевые байты.
 								Для шаблонов на поиск подстроки в строке, лучше используйте LIKE или position, так как они работают существенно быстрее.
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								## multiMatchAny(haystack, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])
-												Renamings, fixes to search algorithms, more tests

											
										
										
											2019-03-23 22:49:38 +00:00
-												More restrictions added

											
										
										
											2019-03-28 15:12:37 +00:00
+								То же, что и `match`, но возвращает ноль, если ни одно регулярное выражение не подошло и один, если хотя бы одно. Используется библиотека [hyperscan](https://github.com/intel/hyperscan) для соответствия регулярных выражений. Для шаблонов на поиск многих подстрок в строке, лучше используйте `multiSearchAny`, так как она работает существенно быстрее.
-												Renamings, fixes to search algorithms, more tests

											
										
										
											2019-03-23 22:49:38 +00:00
-												more fixes
											
										
										
											2019-09-03 08:57:24 +00:00
+								!!! note "Примечание"
 								    Длина любой строки из `haystack` должна быть меньше 2<sup>32</sup> байт, иначе бросается исключение. Это ограничение связано с ограничением hyperscan API.
-												Fix hyperscan, add some notes, test, 4 more perf tests

											
										
										
											2019-03-24 21:47:34 +00:00
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								## multiMatchAnyIndex(haystack, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])
-												Hyperscan multi regular expressions search

											
										
										
											2019-03-23 19:40:16 +00:00
-												Added hyperscan fuzzy search

											
										
										
											2019-03-29 01:02:05 +00:00
+								То же, что и `multiMatchAny`, только возвращает любой индекс подходящего регулярного выражения.
-												All multi{Fuzzy}MatchAllIndices functions

											
										
										
											2019-10-13 13:22:09 +00:00
+								## multiMatchAllIndices(haystack, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])
 								То же, что и `multiMatchAny`, только возвращает массив всех индексов всех подходящих регулярных выражений в любом порядке.
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								## multiFuzzyMatchAny(haystack, distance, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])
-												Added hyperscan fuzzy search

											
										
										
											2019-03-29 01:02:05 +00:00
 								То же, что и `multiMatchAny`, но возвращает 1 если любой pattern соответствует haystack в пределах константного [редакционного расстояния](https://en.wikipedia.org/wiki/Edit_distance). Эта функция также находится в экспериментальном режиме и может быть очень медленной. За подробностями обращайтесь к [документации hyperscan](https://intel.github.io/hyperscan/dev-reference/compilation.html#approximate-matching).
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
+								## multiFuzzyMatchAnyIndex(haystack, distance, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])
-												Added hyperscan fuzzy search

											
										
										
											2019-03-29 01:02:05 +00:00
-												Better renamings of fuzzy string search

											
										
										
											2019-03-29 01:27:17 +00:00
+								То же, что и `multiFuzzyMatchAny`, только возвращает любой индекс подходящего регулярного выражения в пределах константного редакционного расстояния.
-												Added hyperscan fuzzy search

											
										
										
											2019-03-29 01:02:05 +00:00
-												All multi{Fuzzy}MatchAllIndices functions

											
										
										
											2019-10-13 13:22:09 +00:00
+								## multiFuzzyMatchAllIndices(haystack, distance, [pattern<sub>1</sub>, pattern<sub>2</sub>, ..., pattern<sub>n</sub>])
 								То же, что и `multiFuzzyMatchAny`, только возвращает массив всех индексов всех подходящих регулярных выражений в любом порядке в пределах константного редакционного расстояния.
-												more fixes
											
										
										
											2019-09-03 08:57:24 +00:00
+								!!! note "Примечание"
 								    `multiFuzzyMatch*` функции не поддерживают UTF-8 закодированные регулярные выражения, и такие выражения рассматриваются как байтовые из-за ограничения hyperscan.
-												fix hyperscan to treat regular expressions as utf-8 expressions

											
										
										
											2019-05-05 06:51:36 +00:00
-												more fixes
											
										
										
											2019-09-03 08:57:24 +00:00
+								!!! note "Примечание"
 								    Чтобы выключить все функции, использующие hyperscan, используйте настройку `SET allow_hyperscan = 0;`.
-												Hyperscan multi regular expressions search

											
										
										
											2019-03-23 19:40:16 +00:00
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## extract(haystack, pattern)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Извлечение фрагмента строки по регулярному выражению. Если haystack не соответствует регулярному выражению pattern, то возвращается пустая строка. Если регулярное выражение не содержит subpattern-ов, то вынимается фрагмент, который подпадает под всё регулярное выражение. Иначе вынимается фрагмент, который подпадает под первый subpattern.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## extractAll(haystack, pattern)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Извлечение всех фрагментов строки по регулярному выражению. Если haystack не соответствует регулярному выражению pattern, то возвращается пустая строка. Возвращается массив строк, состоящий из всех соответствий регулярному выражению. В остальном, поведение аналогично функции extract (по прежнему, вынимается первый subpattern, или всё выражение, если subpattern-а нет).
-												DOCAPI-7695: Functions support for indexes (#6784)


											
										
										
											2019-09-06 09:07:23 +00:00
+								## like(haystack, pattern), оператор haystack LIKE pattern {#function-like}
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Проверка строки на соответствие простому регулярному выражению.
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Регулярное выражение может содержать метасимволы `%` и `_`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`%` обозначает любое количество любых байт (в том числе, нулевое количество символов).
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								`_` обозначает один любой байт.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Для экранирования метасимволов, используется символ `\` (обратный слеш). Смотрите замечание об экранировании в описании функции match.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												Replacing 'RestructuredText' sources with the 'Markdown' ones.

											
										
										
											2017-10-25 05:27:09 +00:00
+								Для регулярных выражений вида `%needle%` действует более оптимальный код, который работает также быстро, как функция `position`.
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Для остальных регулярных выражений, код аналогичен функции match.
-												DOCAPI-7695: Functions support for indexes (#6784)


											
										
										
											2019-09-06 09:07:23 +00:00
+								## notLike(haystack, pattern), оператор haystack NOT LIKE pattern {#function-notlike}
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								То же, что like, но с отрицанием.
-												WIP on docs/website (#3383)

* CLICKHOUSE-4063: less manual html @ index.md

* CLICKHOUSE-4063: recommend markdown="1" in README.md

* CLICKHOUSE-4003: manually purge custom.css for now

* CLICKHOUSE-4064: expand <details> before any print (including to pdf)

* CLICKHOUSE-3927: rearrange interfaces/formats.md a bit

* CLICKHOUSE-3306: add few http headers

* Remove copy-paste introduced in #3392

* Hopefully better chinese fonts #3392

* get rid of tabs @ custom.css

* Apply comments and patch from #3384

* Add jdbc.md to ToC and some translation, though it still looks badly incomplete

* minor punctuation

* Add some backlinks to official website from mirrors that just blindly take markdown sources

* Do not make fonts extra light

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's//g' {}

* find . -name '*.md' -type f | xargs -I{} perl -pi -e 's/ sql/g' {}

* Remove outdated stuff from roadmap.md

* Not so light font on front page too

* Refactor Chinese formats.md to match recent changes in other languages

											
										
										
											2018-10-16 10:47:17 +00:00
-												Rename trigramDistance to ngramDistance, add more functions with CaseInsensitive and UTF, update docs, more job done in perf, added some perf tests for string search that I would like to see

											
										
										
											2019-03-05 22:42:28 +00:00
+								## ngramDistance(haystack, needle)
-												Fix typos

											
										
										
											2019-08-23 10:55:34 +00:00
+								Вычисление 4-граммного расстояния между `haystack` и `needle`: считается симметрическая разность между двумя мультимножествами 4-грамм и нормализуется на сумму их мощностей. Возвращает число float от 0 до 1 -- чем ближе к нулю, тем больше строки похожи друг на друга. Если константный `needle` или `haystack` больше чем 32КБ, кидается исключение. Если некоторые строки из неконстантного `haystack` или `needle` больше 32КБ, расстояние всегда равно единице.
-												Rename trigramDistance to ngramDistance, add more functions with CaseInsensitive and UTF, update docs, more job done in perf, added some perf tests for string search that I would like to see

											
										
										
											2019-03-05 22:42:28 +00:00
 								Для поиска без учета регистра и/или в формате UTF-8 используйте функции `ngramDistanceCaseInsensitive, ngramDistanceUTF8, ngramDistanceCaseInsensitiveUTF8`.
-												ngramEntry renamed to ngramSearch

											
										
										
											2019-05-27 09:05:02 +00:00
+								## ngramSearch(haystack, needle)
-												ngramEntry function was added

											
										
										
											2019-05-25 18:47:26 +00:00
-												inverting ngramSearch to be more intuitive

											
										
										
											2019-06-30 19:34:17 +00:00
+								То же, что и `ngramDistance`, но вычисляет несимметричную разность между `needle` и `haystack` -- количество n-грамм из `needle` минус количество общих n-грамм, нормированное на количество n-грамм из `needle`. Чем ближе результат к единице, тем вероятнее, что `needle` внутри `haystack`. Может быть использовано для приближенного поиска.
-												ngramEntry function was added

											
										
										
											2019-05-25 18:47:26 +00:00
-												ngramEntry renamed to ngramSearch

											
										
										
											2019-05-27 09:05:02 +00:00
+								Для поиска без учета регистра и/или в формате UTF-8 используйте функции `ngramSearchCaseInsensitive, ngramSearchUTF8, ngramSearchCaseInsensitiveUTF8`.
-												ngramEntry function was added

											
										
										
											2019-05-25 18:47:26 +00:00
-												fix ru as well
											
										
										
											2019-09-03 08:54:19 +00:00
+								!!! note "Примечание"
-												more fixes
											
										
										
											2019-09-03 08:57:24 +00:00
+								    Для случая UTF-8 мы используем триграммное расстояние. Вычисление n-граммного расстояния не совсем честное. Мы используем 2-х байтные хэши для хэширования n-грамм, а затем вычисляем (не)симметрическую разность между хэш таблицами -- могут возникнуть коллизии. В формате UTF-8 без учета регистра мы не используем честную функцию `tolower` -- мы обнуляем 5-й бит (нумерация с нуля) каждого байта кодовой точки, а также первый бит нулевого байта, если байтов больше 1 -- это работает для латиницы и почти для всех кириллических букв.
-												Rename trigramDistance to ngramDistance, add more functions with CaseInsensitive and UTF, update docs, more job done in perf, added some perf tests for string search that I would like to see

											
										
										
											2019-03-05 22:42:28 +00:00
-												Domain change in docs

											
										
										
											2020-01-30 10:34:55 +00:00
+								[Оригинальная статья](https://clickhouse.tech/docs/ru/query_language/functions/string_search_functions/) <!--hide-->