ru docs update string-search-functions

2024-11-21 23:21:59 +00:00 · 2022-08-22 19:23:11 +05:00 · 2022-08-22 19:23:11 +05:00 · 44883aacc4
commit 44883aacc4
parent 895a5fef4a
1 changed files with 19 additions and 14 deletions
--- a/docs/ru/sql-reference/functions/string-search-functions.md
+++ b/docs/ru/sql-reference/functions/string-search-functions.md
@ -27,9 +27,10 @@ position(needle IN haystack)

 Алиас: `locate(haystack, needle[, start_pos])`.

-    :::note "Примечание"
+:::note "Примечание"
    Синтаксис `position(needle IN haystack)` обеспечивает совместимость с SQL, функция работает так же, как `position(haystack, needle)`.
-    :::
+:::
+
 **Аргументы**

 -   `haystack` — строка, по которой выполняется поиск. [Строка](../syntax.md#syntax-string-literal).
@ -327,9 +328,10 @@ Result:

 Для поиска без учета регистра и/или в кодировке UTF-8 используйте функции `multiSearchAnyCaseInsensitive, multiSearchAnyUTF8, multiSearchAnyCaseInsensitiveUTF8`.

-    :::note "Примечание"
+:::note "Примечание"
    Во всех функциях `multiSearch*` количество needles должно быть меньше 2<sup>8</sup> из-за особенностей реализации.
-    :::
+:::
+
 ## match(haystack, pattern) {#matchhaystack-pattern}

 Проверка строки на соответствие регулярному выражению pattern. Регулярное выражение **re2**. Синтаксис регулярных выражений **re2** является более ограниченным по сравнению с регулярными выражениями **Perl** ([подробнее](https://github.com/google/re2/wiki/Syntax)).
@ -344,9 +346,9 @@ Result:

 То же, что и `match`, но возвращает ноль, если ни одно регулярное выражение не подошло и один, если хотя бы одно. Используется библиотека [hyperscan](https://github.com/intel/hyperscan) для соответствия регулярных выражений. Для шаблонов на поиск многих подстрок в строке, лучше используйте `multiSearchAny`, так как она работает существенно быстрее.

-    :::note "Примечание"
+:::note "Примечание"
    Длина любой строки из `haystack` должна быть меньше 2<sup>32</sup> байт, иначе бросается исключение. Это ограничение связано с ограничением hyperscan API.
-    :::
+:::
 ## multiMatchAnyIndex(haystack, \[pattern<sub>1</sub>, pattern<sub>2</sub>, …, pattern<sub>n</sub>\]) {#multimatchanyindexhaystack-pattern1-pattern2-patternn}

 То же, что и `multiMatchAny`, только возвращает любой индекс подходящего регулярного выражения.
@ -367,12 +369,13 @@ Result:

 То же, что и `multiFuzzyMatchAny`, только возвращает массив всех индексов всех подходящих регулярных выражений в любом порядке в пределах константного редакционного расстояния.

-    :::note "Примечание"
+:::note "Примечание"
    `multiFuzzyMatch*` функции не поддерживают UTF-8 закодированные регулярные выражения, и такие выражения рассматриваются как байтовые из-за ограничения hyperscan.
-    :::
-    :::note "Примечание"
+:::
+    
+:::note "Примечание"
    Чтобы выключить все функции, использующие hyperscan, используйте настройку `SET allow_hyperscan = 0;`.
-    :::
+:::
 ## extract(haystack, pattern) {#extracthaystack-pattern}

 Извлечение фрагмента строки по регулярному выражению. Если haystack не соответствует регулярному выражению pattern, то возвращается пустая строка. Если регулярное выражение не содержит subpattern-ов, то вынимается фрагмент, который подпадает под всё регулярное выражение. Иначе вынимается фрагмент, который подпадает под первый subpattern.
@ -385,9 +388,10 @@ Result:

 Разбирает строку `haystack` на фрагменты, соответствующие группам регулярного выражения `pattern`. Возвращает массив массивов, где первый массив содержит все фрагменты, соответствующие первой группе регулярного выражения, второй массив - соответствующие второй группе, и т.д.

-    :::note "Замечание"
+:::note "Замечание"
    Функция `extractAllGroupsHorizontal` работает медленнее, чем функция [extractAllGroupsVertical](#extractallgroups-vertical).
-    :::
+:::
+
 **Синтаксис**

 ``` sql
@ -556,9 +560,10 @@ SELECT * FROM Months WHERE ilike(name, '%j%');

 Для поиска без учета регистра и/или в формате UTF-8 используйте функции `ngramSearchCaseInsensitive, ngramSearchUTF8, ngramSearchCaseInsensitiveUTF8`.

-    :::note "Примечание"
+:::note "Примечание"
    Для случая UTF-8 мы используем триграммное расстояние. Вычисление n-граммного расстояния не совсем честное. Мы используем 2-х байтные хэши для хэширования n-грамм, а затем вычисляем (не)симметрическую разность между хэш таблицами – могут возникнуть коллизии. В формате UTF-8 без учета регистра мы не используем честную функцию `tolower` – мы обнуляем 5-й бит (нумерация с нуля) каждого байта кодовой точки, а также первый бит нулевого байта, если байтов больше 1 – это работает для латиницы и почти для всех кириллических букв.
-    :::
+:::
+
 ## countMatches(haystack, pattern) {#countmatcheshaystack-pattern}

 Возвращает количество совпадений, найденных в строке `haystack`, для регулярного выражения `pattern`.