New page - External Disks for Storing Data

2024-11-22 07:31:57 +00:00 · 2021-08-08 23:19:00 +00:00 · 2021-08-08 23:19:00 +00:00 · 06e48f39b0
commit 06e48f39b0
parent 7673247b4e
6 changed files with 32 additions and 4 deletions
--- a/docs/en/engines/table-engines/integrations/hdfs.md
+++ b/docs/en/engines/table-engines/integrations/hdfs.md
@ -51,7 +51,7 @@ SELECT * FROM hdfs_engine_table LIMIT 2
 ## Implementation Details {#implementation-details}

 -   Reads and writes can be parallel.
-   Zero-copy replication is supported, which means that if the data is stored remotely on several machines and needs to be synchronized, then only the metadata is replicated (paths to the data parts), but not the data itself.  
+-   [Zero-copy](../../../operations/storing-data.md#zero-copy) replication is supported.  
 -   Not supported:
    -   `ALTER` and `SELECT...SAMPLE` operations.
    -   Indexes.
--- a/docs/en/engines/table-engines/integrations/s3.md
+++ b/docs/en/engines/table-engines/integrations/s3.md
@ -57,7 +57,7 @@ For more information about virtual columns see [here](../../../engines/table-eng
 ## Implementation Details {#implementation-details}

 -   Reads and writes can be parallel
-   Zero-copy replication is supported, which means that if the data is stored remotely on several machines and needs to be synchronized, then only the metadata is replicated (paths to the data parts), but not the data itself.  
+-   [Zero-copy](../../../operations/storing-data.md#zero-copy) replication is supported.  
 -   Not supported:
    -   `ALTER` and `SELECT...SAMPLE` operations.
    -   Indexes.
--- a/docs/en/operations/storing-data.md
+++ b/docs/en/operations/storing-data.md
@ -0,0 +1,14 @@
+---
+toc_priority: 68
+toc_title: External Disks for Storing Data
+---
+
+# External Disks for Storing Data {#external-disks}
+
+Data, processed in ClickHouse, is usually stored in the local file system — on the same machine with the ClickHouse server. That requires large-capacity disks, which can be expensive enough. To avoid that you can store the data remotely — on [Amazon s3](https://aws.amazon.com/s3/) disks or in the Hadoop Distributed File System ([HDFS](https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html)). 
+
+To work with data stored on `Amazon s3` disks use [s3](../engines/table-engines/integrations/s3.md) table engine, and to work with data in the Hadoop Distributed File System — [HDFS](../engines/table-engines/integrations/hdfs.md) table engine. 
+
+## Zero-copy Replication {#zero-copy}
+
+ClickHouse supports zero-copy replication for `s3` and `HDFS` disks, which means that if the data is stored remotely on several machines and needs to be synchronized, then only the metadata is replicated (paths to the data parts), but not the data itself. 
--- a/docs/ru/engines/table-engines/integrations/hdfs.md
+++ b/docs/ru/engines/table-engines/integrations/hdfs.md
@ -47,7 +47,7 @@ SELECT * FROM hdfs_engine_table LIMIT 2
 ## Детали реализации {#implementation-details}

 -   Поддерживается многопоточное чтение и запись.
-   Поддерживается репликация без копирования данных ("zero-copy"): если данные хранятся на нескольких удаленных машинах, то при синхронизации пересылаются только метаданные (пути к кускам данных), а сами данные не копируются.  
+-   Поддерживается репликация без копирования данных ([zero-copy](../../../operations/storing-data.md#zero-copy)).  
 -   Не поддерживается:
    -   использование операций `ALTER` и `SELECT...SAMPLE`;
    -   индексы.
--- a/docs/ru/engines/table-engines/integrations/s3.md
+++ b/docs/ru/engines/table-engines/integrations/s3.md
@ -47,7 +47,7 @@ SELECT * FROM s3_engine_table LIMIT 2;
 ## Детали реализации {#implementation-details}

 -   Чтение и запись могут быть параллельными.
-   Поддерживается репиликация без копирования данных (zero-copy): если данные хранятся на нескольких удаленных машинах, то при синхронизации пересылаются только метаданные (пути к кускам данных), а сами данные не копируются. 
+-   Поддерживается репликация без копирования данных ([zero-copy](../../../operations/storing-data.md#zero-copy)).
 -   Не поддерживаются:
    -   запросы `ALTER` и `SELECT...SAMPLE`,
    -   индексы.
--- a/docs/ru/operations/storing-data.md
+++ b/docs/ru/operations/storing-data.md
@ -0,0 +1,14 @@
+---
+toc_priority: 68
+toc_title: "Хранение данных на внешних дисках"
+---
+
+# Хранение данных на внешних дисках {#external-disks}
+
+Данные, которые обрабатываются в ClickHouse, обычно хранятся в файловой системе локально — на том же компьютере, где развернут сервер ClickHouse. При этом для хранения данных требуются диски большого объема, которые могут быть довольно дорогостоящими. Решением проблемы может стать хранение данных в удаленной файловой системе — например, на дисках [Amazon s3](https://aws.amazon.com/s3/) или в распределенной дисковой системе Hadoop ([HDFS](https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html)). 
+
+Для работы с данными, хранящимися на дисках `Amazon s3`, используйте движок [s3](../engines/table-engines/integrations/s3.md), а для работы с данными в распределенной файловой системе Hadoop — движок [HDFS](../engines/table-engines/integrations/hdfs.md). 
+
+## Репликация без копирования данных {#zero-copy}
+
+Для дисков `s3` и `HDFS` в ClickHouse поддерживается репликация без копирования данных (zero-copy): если данные хранятся на нескольких удаленных машинах, то при синхронизации пересылаются только метаданные (пути к кускам данных), а сами данные не копируются.