From 8e3c5157cc5f13d34f09b734281ca89e9e4438f3 Mon Sep 17 00:00:00 2001 From: BayoNet Date: Mon, 20 May 2019 17:41:10 +0300 Subject: [PATCH] DOCAPI-6697: Edited the toValidUTF8 description. --- .../functions/string_functions.md | 23 ++++++++++++++- .../functions/string_functions.md | 28 ++++++++++++++++++- 2 files changed, 49 insertions(+), 2 deletions(-) diff --git a/docs/en/query_language/functions/string_functions.md b/docs/en/query_language/functions/string_functions.md index 70ce9fd2d18..474bbbb91fa 100644 --- a/docs/en/query_language/functions/string_functions.md +++ b/docs/en/query_language/functions/string_functions.md @@ -62,7 +62,28 @@ Returns 1, if the set of bytes is valid UTF-8 encoded, otherwise 0. ## toValidUTF8 -Returns string where all invalid UTF-8 characters are replaced by replacement character `�` (U+FFFD). If there are many invalid characters subsequently, it is collapsed to one replacement character. +Replaces invalid UTF-8 characters by the `�` (U+FFFD) character. All running in a row invalid characters are collapsed into the one replacement character. + +``` +toValidUTF8( input_string ) +``` + +Parameters: + +- input_string — Any set of bytes represented as the [String](../../data_types/string.md) data type object. + +Returned value: Valid UTF-8 string. + +### Example + +```sql +SELECT toValidUTF8('\x00\xF0\x80\x80\x80') +``` +```text +┌─toValidUTF8('\0����')─┐ +│ � │ +└───────────────────────┘ +``` ## reverse diff --git a/docs/ru/query_language/functions/string_functions.md b/docs/ru/query_language/functions/string_functions.md index de79a7e506f..52b62f7b5dd 100644 --- a/docs/ru/query_language/functions/string_functions.md +++ b/docs/ru/query_language/functions/string_functions.md @@ -42,7 +42,33 @@ Возвращает 1, если набор байт является корректным в кодировке UTF-8, 0 иначе. ## toValidUTF8 -Возвращает строку, где все некорректные UTF-8 символы заменены на заменяющий символ `�` (U+FFFD). Если много некорректных символов идут подряд, схлопывается до одного заменяющего символа. + +Заменяет некорректные символы UTF-8 на символ `�` (U+FFFD). Все идущие подряд некорректные символы схлопываются в один заменяющий символ. + + +``` +toValidUTF8( input_string ) +``` + +Параметры: + +- input_string — произвольный набор байтов, представленный как объект типа [String](../../data_types/string.md). + +Возвращаемое значение: Корректная строка UTF-8. + +### Пример + +```sql +SELECT toValidUTF8('\x00\xF0\x80\x80\x80') +``` +```text +┌─toValidUTF8('\0����')─┐ +│ � │ +└───────────────────────┘ +``` + + + ## reverse Разворачивает строку (как последовательность байт).