Fixes Integrate CatBoost Topic

This commit is contained in:
Sergei Bocharov 2019-10-14 13:33:39 +03:00
parent 443299fdf5
commit fe63646cb4
2 changed files with 33 additions and 25 deletions

View File

@ -8,7 +8,7 @@ To apply a CatBoost model in ClickHouse:
1. [Create a Table](#create-table).
2. [Insert the Data to the Table](#insert-data-to-table).
3. [Build libcatboostmodel and Configure the Model](#build-libcatboostmodel-and-configure-model) (Optional step).
3. [Integrate CatBoost into ClickHouse](#integrate-catboost-into-clickhouse) (Optional step).
4. [Run the Model Inference from SQL](#run-model-inference).
For more information about training CatBoost models, see [Training and applying models](https://catboost.ai/docs/features/training.html#training).
@ -112,16 +112,24 @@ FROM amazon_train
+---------+
```
## 3. Build libcatboostmodel Configure the Model to Work with the Trained Model {#build-libcatboostmodel-and-configure-model}
## 3. Integrate CatBoost into ClickHouse {#integrate-catboost-into-clickhouse}
!!! note "Note"
**Optional step.** The Docker image contains the library `.data/libcatboostmodel.so` and model configuration file `models/amazon_model.xml`.
**Optional step.** The Docker image contains everything you need to run CatBoost and ClickHouse.
The library `libcatboostmodel.<so|dll|dylib>` is the CatBoost model interface library. To build the library see [CatBoost documentation](https://catboost.ai/docs/concepts/c-plus-plus-api_dynamic-c-pluplus-wrapper.html).
To integrate CatBoost into ClickHouse:
To configure the model:
**1.** Build the evaluation library:
**1.** Create a model config file in the `models` folder (for example, `models/config_model.xml`):
The fastest way to evaluate a CatBoost model is compile `libcatboostmodel.<so|dll|dylib>` library. For more information about how to build the library, see [CatBoost documentation](https://catboost.ai/docs/concepts/c-plus-plus-api_dynamic-c-pluplus-wrapper.html).
**2.** Create a new directory anywhere and with any name, for example, `.data` and put the created library in it. The Docker image already contains the library `.data/libcatboostmodel.so`.
**3.** Create a new directory for config model anywhere and with any name, for example, `models`.
**4.** Create a model configuration file with any name, for example, `models/amazon_model.xml`.
**5.** Describe the model configuration:
```xml
<models>
@ -138,14 +146,14 @@ To configure the model:
</models>
```
**2.** Add a link to the created file to the ClickHouse configuration `../../etc/clickhouse-server/config.d/models_config.xml`.
**6.** Add the path to CatBoost and configuration to the ClickHouse configuration:
```xml
<!-- File etc/clickhouse-server/config.d/models_config.xml. -->
<catboost_dynamic_library_path>/home/catboost/.data/libcatboostmodel.so</catboost_dynamic_library_path>
<models_config>/home/catboost/models/*_model.xml</models_config>
```
The ClickHouse config file should already have this setting. To check it, run `tail ../../etc/clickhouse-server/config.d/models_config.xml`.
## 4. Run the Model Inference from SQL {#run-model-inference}
For test model run the ClickHouse client `$ clickhouse client`.

View File

@ -8,7 +8,7 @@
1. [Создайте таблицу](#create-table).
2. [Вставьте данные в таблицу](#insert-data-to-table).
3. [Создайте библиотеку libcatboostmodel и настройте конфигурацию модели](#build-libcatboostmodel-and-configure-model) (Опциональный шаг).
3. [Интегрируйте CatBoost в ClickHouse](#integrate-catboost-into-clickhouse) (Опциональный шаг).
4. [Запустите вывод модели из SQL](#run-model-inference).
Подробнее об обучении моделей в CatBoost, см. [Обучение и применение моделей](https://catboost.ai/docs/features/training.html#training).
@ -112,16 +112,24 @@ FROM amazon_train
+---------+
```
## 3. Создайте библиотеку libcatboostmodel и настройте конфигурацию модели {#build-libcatboostmodel-and-configure-model}
## 3. Интегрируйте CatBoost в ClickHouse {#integrate-catboost-into-clickhouse}
!!! note "Примечание"
**Опциональный шаг.** Docker-образ уже содержит библиотеку `.data/libcatboostmodel.so` и файл конфигурации модели `models/amazon_model.xml`.
**Опциональный шаг.** Docker-образ содержит все необходимое для запуска CatBoost и ClickHouse.
Библиотека `libcatboostmodel.<so|dll|dylib>` — это библиотека CatBoost, которая содержит интерфейс для применения моделей. Чтобы собрать библиотеку, см. [документацию CatBoost](https://catboost.ai/docs/concepts/c-plus-plus-api_dynamic-c-pluplus-wrapper.html).
Чтобы интегрировать CatBoost в ClickHouse:
Чтобы настроить конфигурацию модели:
**1.** Создайте библиотеку для оценки модели:
**1.** Создайте файл с конфигурацией модели в папке `models` (например, `models/config_model.xml`):
Наиболее быстрый способ оценить модель CatBoost — это скомпилировать библиотеку `libcatboostmodel.<so|dll|dylib>`. Подробнее о том, как создать библиотеку, читайте в [документации CatBoost](https://catboost.ai/docs/concepts/c-plus-plus-api_dynamic-c-pluplus-wrapper.html).
**2.** Создайте в любом месте новую директорию с произвольным названием, например `.data` и поместите в нее созданную библиотеку. Docker-образ уже содержит библиотеку `.data/libcatboostmodel.so`.
**3.** Создайте в любом месте новую директорию для конфигурации модели с произвольным названием, например `models`.
**4.** Создайте файл конфигурации модели с произвольным названием, например `models/amazon_model.xml`.
**5.** Опишите конфигурацию модели:
```xml
<models>
@ -138,22 +146,14 @@ FROM amazon_train
</models>
```
**2.** Укажите в конфигурации ClickHouse:
- Путь к `libcatboostmodel.so`:
**6.** Добавьте в конфигурацию ClickHouse путь к CatBoost и конфигурации:
```xml
<!-- Файл etc/clickhouse-server/config.d/models_config.xml. -->
<catboost_dynamic_library_path>/home/catboost/.data/libcatboostmodel.so</catboost_dynamic_library_path>
```
- Путь к созданной конфигурации модели:
```xml
<models_config>/home/catboost/models/*_model.xml</models_config>
```
В конфигурации ClickHouse Docker-контейнера эти пути уже прописаны. Чтобы убедиться в этом, выполните команду `tail ../../etc/clickhouse-server/config.d/models_config.xml`.
## 4. Запустите вывод модели из SQL {#run-model-inference}
Для тестирования модели запустите клиент ClickHouse `$ clickhouse client`.