ClickHouse/docs/ru/sql-reference/functions/nlp-functions.md

---
slug: /ru/sql-reference/functions/nlp-functions
sidebar_position: 67
sidebar_label: NLP
---

# [экспериментально] Функции для работы с естественным языком {#nlp-functions}

:::danger Предупреждение
Сейчас использование функций для работы с естественным языком является экспериментальной возможностью. Чтобы использовать данные функции, включите настройку `allow_experimental_nlp_functions = 1`.
:::

## stem {#stem}

Данная функция проводит стемминг заданного слова.

**Синтаксис**

``` sql
stem('language', word)
```

**Аргументы**

-   `language` — Язык, правила которого будут применены для стемминга. Допускается только нижний регистр. [String](../../sql-reference/data-types/string.md#string).
-   `word` — Слово подлежащее стеммингу. Допускается только нижний регистр. [String](../../sql-reference/data-types/string.md#string).

**Examples**

Query:

``` sql
SELECT arrayMap(x -> stem('en', x), ['I', 'think', 'it', 'is', 'a', 'blessing', 'in', 'disguise']) as res;
```

Result:

``` text
┌─res────────────────────────────────────────────────┐
│ ['I','think','it','is','a','bless','in','disguis'] │
└────────────────────────────────────────────────────┘
```

## lemmatize {#lemmatize}

Данная функция проводит лемматизацию для заданного слова. Для работы лемматизатора необходимы словари, которые можно найти [здесь](https://github.com/vpodpecan/lemmagen3/tree/master/src/lemmagen3/models).

**Синтаксис**

``` sql
lemmatize('language', word)
```

**Аргументы**

-   `language` — Язык, правила которого будут применены для лемматизации. [String](../../sql-reference/data-types/string.md#string).
-   `word` — Слово, подлежащее лемматизации. Допускается только нижний регистр. [String](../../sql-reference/data-types/string.md#string).

**Примеры**

Запрос:

``` sql
SELECT lemmatize('en', 'wolves');
```

Результат:

``` text
┌─lemmatize("wolves")─┐
│              "wolf" │
└─────────────────────┘
```

Конфигурация:
``` xml
<lemmatizers>
    <lemmatizer>
        <lang>en</lang>
        <path>en.bin</path>
    </lemmatizer>
</lemmatizers>
```

## synonyms {#synonyms}

Находит синонимы к заданному слову. Представлены два типа расширений словарей: `plain` и `wordnet`.

Для работы расширения типа `plain` необходимо указать путь до простого текстового файла, где каждая строка соответствует одному набору синонимов. Слова в данной строке должны быть разделены с помощью пробела или знака табуляции.

Для работы расширения типа `plain` необходимо указать путь до WordNet тезауруса. Тезаурус должен содержать WordNet sense index.

**Синтаксис**

``` sql
synonyms('extension_name', word)
```

**Аргументы**

-   `extension_name` — Название расширения, в котором будет проводиться поиск. [String](../../sql-reference/data-types/string.md#string).
-   `word` — Слово, которое будет искаться в расширении. [String](../../sql-reference/data-types/string.md#string).

**Примеры**

Запрос:

``` sql
SELECT synonyms('list', 'important');
```

Результат:

``` text
┌─synonyms('list', 'important')────────────┐
│ ['important','big','critical','crucial'] │
└──────────────────────────────────────────┘
```

Конфигурация:
``` xml
<synonyms_extensions>
    <extension>
        <name>en</name>
        <type>plain</type>
        <path>en.txt</path>
    </extension>
    <extension>
        <name>en</name>
        <type>wordnet</type>
        <path>en/</path>
    </extension>
</synonyms_extensions>
```
-												added english and russian documentation draft

											
										
										
											2021-06-05 03:57:53 +00:00
+								---
-												add slugs to all docs

											
										
										
											2022-08-26 17:37:11 +00:00
+								slug: /ru/sql-reference/functions/nlp-functions
-												Removed /ja folder, cleaned up /ru markdown

											
										
										
											2022-04-09 13:29:05 +00:00
+								sidebar_position: 67
 								sidebar_label: NLP
-												added english and russian documentation draft

											
										
										
											2021-06-05 03:57:53 +00:00
+								---
-												Fix docs typos

											
										
										
											2021-12-30 03:19:37 +00:00
+								# [экспериментально] Функции для работы с естественным языком {#nlp-functions}
-												Improve docs

											
										
										
											2021-08-02 12:32:45 +00:00
-												Make docs better

											
										
										
											2023-09-05 12:43:53 +00:00
+								:::danger Предупреждение
 								Сейчас использование функций для работы с естественным языком является экспериментальной возможностью. Чтобы использовать данные функции, включите настройку `allow_experimental_nlp_functions = 1`.
-												ru docs update nlp-functions
											
										
										
											2022-08-22 14:37:31 +00:00
+								:::
-												added english and russian documentation draft

											
										
										
											2021-06-05 03:57:53 +00:00
 								## stem {#stem}
 								Данная функция проводит стемминг заданного слова.
 								**Синтаксис**
 								``` sql
 								stem('language', word)
 								```
 								**Аргументы**
 								-   `language` — Язык, правила которого будут применены для стемминга. Допускается только нижний регистр. [String](../../sql-reference/data-types/string.md#string).
 								-   `word` — Слово подлежащее стеммингу. Допускается только нижний регистр. [String](../../sql-reference/data-types/string.md#string).
 								**Examples**
 								Query:
 								``` sql
-												edit&translate

											
										
										
											2021-10-19 22:38:34 +00:00
+								SELECT arrayMap(x -> stem('en', x), ['I', 'think', 'it', 'is', 'a', 'blessing', 'in', 'disguise']) as res;
-												added english and russian documentation draft

											
										
										
											2021-06-05 03:57:53 +00:00
+								```
 								Result:
 								``` text
 								┌─res────────────────────────────────────────────────┐
 								│ ['I','think','it','is','a','bless','in','disguis'] │
 								└────────────────────────────────────────────────────┘
 								```
 								## lemmatize {#lemmatize}
-												Improve docs

											
										
										
											2021-08-02 12:32:45 +00:00
+								Данная функция проводит лемматизацию для заданного слова. Для работы лемматизатора необходимы словари, которые можно найти [здесь](https://github.com/vpodpecan/lemmagen3/tree/master/src/lemmagen3/models).
-												added english and russian documentation draft

											
										
										
											2021-06-05 03:57:53 +00:00
 								**Синтаксис**
 								``` sql
 								lemmatize('language', word)
 								```
 								**Аргументы**
 								-   `language` — Язык, правила которого будут применены для лемматизации. [String](../../sql-reference/data-types/string.md#string).
 								-   `word` — Слово, подлежащее лемматизации. Допускается только нижний регистр. [String](../../sql-reference/data-types/string.md#string).
 								**Примеры**
 								Запрос:
 								``` sql
 								SELECT lemmatize('en', 'wolves');
 								```
 								Результат:
 								``` text
 								┌─lemmatize("wolves")─┐
 								│              "wolf" │
 								└─────────────────────┘
 								```
 								Конфигурация:
 								``` xml
 								<lemmatizers>
 								    <lemmatizer>
 								        <lang>en</lang>
 								        <path>en.bin</path>
 								    </lemmatizer>
 								</lemmatizers>
 								```
 								## synonyms {#synonyms}
-												Improve docs

											
										
										
											2021-08-02 12:32:45 +00:00
+								Находит синонимы к заданному слову. Представлены два типа расширений словарей: `plain` и `wordnet`.
-												Fix docs typos

											
										
										
											2021-12-30 03:19:37 +00:00
+								Для работы расширения типа `plain` необходимо указать путь до простого текстового файла, где каждая строка соответствует одному набору синонимов. Слова в данной строке должны быть разделены с помощью пробела или знака табуляции.
-												Improve docs

											
										
										
											2021-08-02 12:32:45 +00:00
 								Для работы расширения типа `plain` необходимо указать путь до WordNet тезауруса. Тезаурус должен содержать WordNet sense index.
-												added english and russian documentation draft

											
										
										
											2021-06-05 03:57:53 +00:00
 								**Синтаксис**
 								``` sql
 								synonyms('extension_name', word)
 								```
 								**Аргументы**
 								-   `extension_name` — Название расширения, в котором будет проводиться поиск. [String](../../sql-reference/data-types/string.md#string).
 								-   `word` — Слово, которое будет искаться в расширении. [String](../../sql-reference/data-types/string.md#string).
 								**Примеры**
 								Запрос:
 								``` sql
 								SELECT synonyms('list', 'important');
 								```
 								Результат:
 								``` text
 								┌─synonyms('list', 'important')────────────┐
 								│ ['important','big','critical','crucial'] │
 								└──────────────────────────────────────────┘
 								```
 								Конфигурация:
 								``` xml
 								<synonyms_extensions>
 								    <extension>
 								        <name>en</name>
 								        <type>plain</type>
 								        <path>en.txt</path>
 								    </extension>
 								    <extension>
 								        <name>en</name>
 								        <type>wordnet</type>
 								        <path>en/</path>
 								    </extension>
 								</synonyms_extensions>
-												ru docs update nlp-functions
											
										
										
											2022-08-22 14:37:31 +00:00
+								```