ClickHouse/docs/ru/operations/table_engines/file.md
2020-01-30 13:34:55 +03:00

4.4 KiB
Raw Blame History

File(Format)

Управляет данными в одном файле на диске в указанном формате.

Примеры применения:

  • Выгрузка данных из ClickHouse в файл.
  • Преобразование данных из одного формата в другой.
  • Обновление данных в ClickHouse редактированием файла на диске.

Использование движка в сервере ClickHouse

File(Format)

Format должен быть таким, который ClickHouse может использовать и в запросах INSERT и в запросах SELECT. Полный список поддерживаемых форматов смотрите в разделе Форматы.

Сервер ClickHouse не позволяет указать путь к файлу, с которым будет работать File. Используется путь к хранилищу, определенный параметром path в конфигурации сервера.

При создании таблицы с помощью File(Format) сервер ClickHouse создает в хранилище каталог с именем таблицы, а после добавления в таблицу данных помещает туда файл data.Format.

Можно вручную создать в хранилище каталог таблицы, поместить туда файл, затем на сервере ClickHouse добавить (ATTACH) информацию о таблице, соответствующей имени каталога и прочитать из файла данные.

!!! warning Будьте аккуратны с этой функциональностью, поскольку сервер ClickHouse не отслеживает внешние изменения данных. Если в файл будет производиться запись одновременно со стороны сервера ClickHouse и с внешней стороны, то результат непредсказуем.

Пример:

1. Создадим на сервере таблицу file_engine_table:

CREATE TABLE file_engine_table (name String, value UInt32) ENGINE=File(TabSeparated)

В конфигурации по умолчанию сервер ClickHouse создаст каталог /var/lib/clickhouse/data/default/file_engine_table.

2. Вручную создадим файл /var/lib/clickhouse/data/default/file_engine_table/data.TabSeparated с содержимым:

$cat data.TabSeparated
one	1
two	2

3. Запросим данные:

SELECT * FROM file_engine_table
┌─name─┬─value─┐
│ one  │     1 │
│ two  │     2 │
└──────┴───────┘

Использование движка в clickhouse-local

В clickhouse-local движок в качестве параметра принимает не только формат, но и путь к файлу. В том числе можно указать стандартные потоки ввода/вывода цифровым или буквенным обозначением 0 или stdin, 1 или stdout.

Пример:

$ echo -e "1,2\n3,4" | clickhouse-local -q "CREATE TABLE table (a Int64, b Int64) ENGINE = File(CSV, stdin); SELECT a, b FROM table; DROP TABLE table"

Детали реализации

  • Поддерживается одновременное выполнение множества запросов SELECT, запросы INSERT могут выполняться только последовательно.
  • Поддерживается создание ещё не существующего файла при запросе INSERT.
  • Для существующих файлов INSERT записывает в конец файла.
  • Не поддерживается:
    • использование операций ALTER и SELECT...SAMPLE;
    • индексы;
    • репликация.

Оригинальная статья