ClickHouse/docs/ru/query_language/functions/string_functions.md

# Функции для работы со строками

## empty {#string_functions-empty}
Возвращает 1 для пустой строки, и 0 для непустой строки.
Тип результата - UInt8.
Строка считается непустой, если содержит хотя бы один байт, пусть даже это пробел или нулевой байт.
Функция также работает для массивов.

## notEmpty
Возвращает 0 для пустой строки, и 1 для непустой строки.
Тип результата - UInt8.
Функция также работает для массивов.

## length
Возвращает длину строки в байтах (не символах, не кодовых точках).
Тип результата - UInt64.
Функция также работает для массивов.

## lengthUTF8
Возвращает длину строки в кодовых точках Unicode (не символах), при допущении, что строка содержит набор байт, являющийся текстом в кодировке UTF-8. Если допущение не выполнено - то возвращает какой-нибудь результат (не кидает исключение).
Тип результата - UInt64.

## lower
Переводит ASCII-символы латиницы в строке в нижний регистр.

## upper
Переводит ASCII-символы латиницы в строке в верхний регистр.

## lowerUTF8
Переводит строку в нижний регистр, при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8.
Не учитывает язык. То есть, для турецкого языка, результат может быть не совсем верным.
Если длина UTF-8 последовательности байт различна для верхнего и нижнего регистра кодовой точки, то для этой кодовой точки, результат работы может быть некорректным.
Если строка содержит набор байт, не являющийся UTF-8, то поведение не определено.

## upperUTF8
Переводит строку в верхний регистр, при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8.
Не учитывает язык. То есть, для турецкого языка, результат может быть не совсем верным.
Если длина UTF-8 последовательности байт различна для верхнего и нижнего регистра кодовой точки, то для этой кодовой точки, результат работы может быть некорректным.
Если строка содержит набор байт, не являющийся UTF-8, то поведение не определено.

## isValidUTF8
Возвращает 1, если набор байт является корректным в кодировке UTF-8, 0 иначе.

## toValidUTF8

Заменяет некорректные символы UTF-8 на символ `<60>` (U+FFFD). Все идущие подряд некорректные символы схлопываются в один заменяющий символ.

```
toValidUTF8( input_string )
```

Параметры:

- input_string — произвольный набор байтов, представленный как объект типа [String](../../data_types/string.md).

Возвращаемое значение: Корректная строка UTF-8.

### Пример

```sql
SELECT toValidUTF8('\x61\xF0\x80\x80\x80b')
```
```text
┌─toValidUTF8('a<><61><EFBFBD><EFBFBD>b')─┐
│ a<>b                   │
└───────────────────────┘
```


## reverse
Разворачивает строку (как последовательность байт).

## reverseUTF8
Разворачивает последовательность кодовых точек Unicode, при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8. Иначе - что-то делает (не кидает исключение).


## format(pattern, s0, s1, ...)

Форматирует константный шаблон со строками, перечисленными в аргументах. `pattern` -- упрощенная версия шаблона в языке Python. Шаблон содержит "заменяющие поля", которые окружены фигурными скобками `{}`. Всё, что не содержится в скобках, интерпретируется как обычный текст и просто копируется. Если нужно использовать символ фигурной скобки, можно экранивать двойной скобкой `{{` или `}}`. Имя полей могут быть числами (нумерация с нуля) или пустыми (тогда они интерпретируются как последовательные числа).

```sql
SELECT format('{1} {0} {1}', 'World', 'Hello')

┌─format('{1} {0} {1}', 'World', 'Hello')─┐
│ Hello World Hello                       │
└─────────────────────────────────────────┘

SELECT format('{} {}', 'Hello', 'World')

┌─format('{} {}', 'Hello', 'World')─┐
│ Hello World                       │
└───────────────────────────────────┘
```


## concat(s1, s2, ...)
Склеивает строки, перечисленные в аргументах, без разделителей.

## substring(s, offset, length)
Возвращает подстроку, начиная с байта по индексу offset, длины length байт. Индексация символов - начиная с единицы (как в стандартном SQL). Аргументы offset и length должны быть константами.

## substringUTF8(s, offset, length)
Так же, как substring, но для кодовых точек Unicode. Работает при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8. Если допущение не выполнено - то возвращает какой-нибудь результат (не кидает исключение).

## appendTrailingCharIfAbsent(s, c)
Если строка s непустая и не содержит символ c на конце, то добавляет символ c в конец.

## convertCharset(s, from, to)
Возвращает сконвертированную из кодировки from в кодировку to строку s.

## base64Encode(s)
Производит кодирование строки s в base64-представление.

## base64Decode(s)
Декодирует base64-представление s в исходную строку. При невозможности декодирования выбрасывает исключение

## tryBase64Decode(s)
Функционал аналогичен base64Decode, но при невозможности декодирования возвращает пустую строку.

[Оригинальная статья](https://clickhouse.yandex/docs/ru/query_language/functions/string_functions/) <!--hide-->
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								# Функции для работы со строками
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
-												DOCAPI-5436: Clarification of the 'empty' function description.

											
										
										
											2019-02-27 18:27:29 +00:00
+								## empty {#string_functions-empty}
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает 1 для пустой строки, и 0 для непустой строки.
 								Тип результата - UInt8.
 								Строка считается непустой, если содержит хотя бы один байт, пусть даже это пробел или нулевой байт.
 								Функция также работает для массивов.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## notEmpty
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает 0 для пустой строки, и 1 для непустой строки.
 								Тип результата - UInt8.
 								Функция также работает для массивов.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## length
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает длину строки в байтах (не символах, не кодовых точках).
 								Тип результата - UInt64.
 								Функция также работает для массивов.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## lengthUTF8
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает длину строки в кодовых точках Unicode (не символах), при допущении, что строка содержит набор байт, являющийся текстом в кодировке UTF-8. Если допущение не выполнено - то возвращает какой-нибудь результат (не кидает исключение).
 								Тип результата - UInt64.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## lower
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Переводит ASCII-символы латиницы в строке в нижний регистр.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## upper
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Переводит ASCII-символы латиницы в строке в верхний регистр.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## lowerUTF8
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Переводит строку в нижний регистр, при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8.
 								Не учитывает язык. То есть, для турецкого языка, результат может быть не совсем верным.
 								Если длина UTF-8 последовательности байт различна для верхнего и нижнего регистра кодовой точки, то для этой кодовой точки, результат работы может быть некорректным.
 								Если строка содержит набор байт, не являющийся UTF-8, то поведение не определено.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## upperUTF8
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Переводит строку в верхний регистр, при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8.
 								Не учитывает язык. То есть, для турецкого языка, результат может быть не совсем верным.
 								Если длина UTF-8 последовательности байт различна для верхнего и нижнего регистра кодовой точки, то для этой кодовой точки, результат работы может быть некорректным.
 								Если строка содержит набор байт, не являющийся UTF-8, то поведение не определено.
-												isValidUTF8 function added

											
										
										
											2019-04-07 18:58:13 +00:00
+								## isValidUTF8
 								Возвращает 1, если набор байт является корректным в кодировке UTF-8, 0 иначе.
-												toValidUTF8 function added

											
										
										
											2019-05-17 12:55:21 +00:00
+								## toValidUTF8
-												DOCAPI-6697: Edited the toValidUTF8 description.

											
										
										
											2019-05-20 14:41:10 +00:00
 								Заменяет некорректные символы UTF-8 на символ `<60>` (U+FFFD). Все идущие подряд некорректные символы схлопываются в один заменяющий символ.
 								```
 								toValidUTF8( input_string )
 								```
 								Параметры:
 								- input_string — произвольный набор байтов, представленный как объект типа [String](../../data_types/string.md).
 								Возвращаемое значение: Корректная строка UTF-8.
 								### Пример
 								```sql
-												DOCAPI-6697: RU example fix.

											
										
										
											2019-05-23 12:42:12 +00:00
+								SELECT toValidUTF8('\x61\xF0\x80\x80\x80b')
-												DOCAPI-6697: Edited the toValidUTF8 description.

											
										
										
											2019-05-20 14:41:10 +00:00
+								```
 								```text
-												DOCAPI-6697: RU example fix.

											
										
										
											2019-05-23 12:42:12 +00:00
+								┌─toValidUTF8('a<><61><EFBFBD><EFBFBD>b')─┐
 								│ a<>b                   │
 								└───────────────────────┘
-												DOCAPI-6697: Edited the toValidUTF8 description.

											
										
										
											2019-05-20 14:41:10 +00:00
+								```
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## reverse
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Разворачивает строку (как последовательность байт).
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## reverseUTF8
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Разворачивает последовательность кодовых точек Unicode, при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8. Иначе - что-то делает (не кидает исключение).
-												format function added

											
										
										
											2019-05-18 11:30:36 +00:00
 								## format(pattern, s0, s1, ...)
-												Fix typo in docs

											
										
										
											2019-05-25 15:42:12 +00:00
+								Форматирует константный шаблон со строками, перечисленными в аргументах. `pattern` -- упрощенная версия шаблона в языке Python. Шаблон содержит "заменяющие поля", которые окружены фигурными скобками `{}`. Всё, что не содержится в скобках, интерпретируется как обычный текст и просто копируется. Если нужно использовать символ фигурной скобки, можно экранивать двойной скобкой `{{` или `}}`. Имя полей могут быть числами (нумерация с нуля) или пустыми (тогда они интерпретируются как последовательные числа).
-												format function added

											
										
										
											2019-05-18 11:30:36 +00:00
 								```sql
 								SELECT format('{1} {0} {1}', 'World', 'Hello')
 								┌─format('{1} {0} {1}', 'World', 'Hello')─┐
 								│ Hello World Hello                       │
 								└─────────────────────────────────────────┘
 								SELECT format('{} {}', 'Hello', 'World')
 								┌─format('{} {}', 'Hello', 'World')─┐
 								│ Hello World                       │
 								└───────────────────────────────────┘
 								```
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## concat(s1, s2, ...)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Склеивает строки, перечисленные в аргументах, без разделителей.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## substring(s, offset, length)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает подстроку, начиная с байта по индексу offset, длины length байт. Индексация символов - начиная с единицы (как в стандартном SQL). Аргументы offset и length должны быть константами.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## substringUTF8(s, offset, length)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Так же, как substring, но для кодовых точек Unicode. Работает при допущении, что строка содержит набор байт, представляющий текст в кодировке UTF-8. Если допущение не выполнено - то возвращает какой-нибудь результат (не кидает исключение).
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## appendTrailingCharIfAbsent(s, c)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Если строка s непустая и не содержит символ c на конце, то добавляет символ c в конец.
-												Headers markup is unified through the document.

											
										
										
											2017-12-11 12:07:26 +00:00
+								## convertCharset(s, from, to)
-												Added documentation in RST format. (ReadTheDocs ready)

											
										
										
											2017-03-12 17:58:51 +00:00
+								Возвращает сконвертированную из кодировки from в кодировку to строку s.
-												Arch-based compilation

											
										
										
											2018-11-02 19:06:05 +00:00
 								## base64Encode(s)
 								Производит кодирование строки s в base64-представление.
 								## base64Decode(s)
 								Декодирует base64-представление s в исходную строку. При невозможности декодирования выбрасывает исключение
 								## tryBase64Decode(s)
-												Merge https://github.com/yandex/ClickHouse into base64_functions

											
										
										
											2018-11-14 09:32:42 +00:00
+								Функционал аналогичен base64Decode, но при невозможности декодирования возвращает пустую строку.
-												DOCAPI-5436: Clarification of the 'empty' function description.

											
										
										
											2019-02-27 18:27:29 +00:00
+								[Оригинальная статья](https://clickhouse.yandex/docs/ru/query_language/functions/string_functions/) <!--hide-->