61 KiB
machine_translated | machine_translated_rev |
---|---|
true | 72537a2d52 |
Configuración
distributed_product_mode
Cambia el comportamiento de subconsultas distribuidas.
ClickHouse applies this setting when the query contains the product of distributed tables, i.e. when the query for a distributed table contains a non-GLOBAL subquery for the distributed table.
Restricción:
- Solo se aplica para las subconsultas IN y JOIN.
- Solo si la sección FROM utiliza una tabla distribuida que contiene más de un fragmento.
- Si la subconsulta se refiere a una tabla distribuida que contiene más de un fragmento.
- No se usa para un valor de tabla remoto función.
Valores posibles:
deny
— Default value. Prohibits using these types of subqueries (returns the “Double-distributed in/JOIN subqueries is denied” salvedad).local
— Replaces the database and table in the subquery with local ones for the destination server (shard), leaving the normalIN
/JOIN.
global
— Replaces theIN
/JOIN
consulta conGLOBAL IN
/GLOBAL JOIN.
allow
— Allows the use of these types of subqueries.
enable_optimize_predicate_expression
Activa el pushdown de predicado en SELECT
consulta.
La extracción de predicados puede reducir significativamente el tráfico de red para consultas distribuidas.
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 1.
Uso
Considere las siguientes consultas:
SELECT count() FROM test_table WHERE date = '2018-10-10'
SELECT count() FROM (SELECT * FROM test_table) WHERE date = '2018-10-10'
Si enable_optimize_predicate_expression = 1
, entonces el tiempo de ejecución de estas consultas es igual porque se aplica ClickHouse WHERE
a la subconsulta al procesarla.
Si enable_optimize_predicate_expression = 0
, entonces el tiempo de ejecución de la segunda consulta es mucho más largo, porque el WHERE
cláusula se aplica a todos los datos después de que finalice la subconsulta.
fallback_to_stale_replicas_for_distributed_queries
Fuerza una consulta a una réplica obsoleta si los datos actualizados no están disponibles. Ver Replicación.
ClickHouse selecciona la más relevante de las réplicas obsoletas de la tabla.
Se utiliza al realizar SELECT
desde una tabla distribuida que apunta a tablas replicadas.
De forma predeterminada, 1 (habilitado).
Fecha de nacimiento
Deshabilita la ejecución de consultas si el índice no se puede usar por fecha.
Funciona con tablas de la familia MergeTree.
Si force_index_by_date=1
, ClickHouse comprueba si la consulta tiene una condición de clave de fecha que se puede usar para restringir intervalos de datos. Si no hay una condición adecuada, arroja una excepción. Sin embargo, no comprueba si la condición reduce la cantidad de datos a leer. Por ejemplo, la condición Date != ' 2000-01-01 '
es aceptable incluso cuando coincide con todos los datos de la tabla (es decir, ejecutar la consulta requiere un escaneo completo). Para obtener más información acerca de los intervalos de datos en las tablas MergeTree, vea Método de codificación de datos:.
force_primary_key
Deshabilita la ejecución de consultas si no es posible la indexación mediante la clave principal.
Funciona con tablas de la familia MergeTree.
Si force_primary_key=1
, ClickHouse comprueba si la consulta tiene una condición de clave principal que se puede usar para restringir rangos de datos. Si no hay una condición adecuada, arroja una excepción. Sin embargo, no comprueba si la condición reduce la cantidad de datos a leer. Para obtener más información acerca de los intervalos de datos en las tablas MergeTree, consulte Método de codificación de datos:.
Formato_esquema
Este parámetro es útil cuando se utilizan formatos que requieren una definición de esquema, como Cap'n Proto o Protobuf. El valor depende del formato.
fsync_metadata
Habilita o deshabilita fsync al escribir .sql
file. Habilitado de forma predeterminada.
Tiene sentido desactivarlo si el servidor tiene millones de pequeñas tablas que se crean y destruyen constantemente.
enable_http_compression
Habilita o deshabilita la compresión de datos en la respuesta a una solicitud HTTP.
Para obtener más información, lea el Descripción de la interfaz HTTP.
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 0.
http_zlib_compression_level
Establece el nivel de compresión de datos en la respuesta a una solicitud HTTP si enable_http_compression = 1.
Valores posibles: Números del 1 al 9.
Valor predeterminado: 3.
http_native_compression_disable_checksumming_on_decompress
Habilita o deshabilita la verificación de suma de comprobación al descomprimir los datos HTTP POST del cliente. Se usa solo para el formato de compresión nativa ClickHouse (no se usa con gzip
o deflate
).
Para obtener más información, lea el Descripción de la interfaz HTTP.
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 0.
send_progress_in_http_headers
Habilita o deshabilita X-ClickHouse-Progress
Encabezados de respuesta HTTP en clickhouse-server
respuesta.
Para obtener más información, lea el Descripción de la interfaz HTTP.
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 0.
Nombre de la red inalámbrica (SSID):
Limita el número máximo de saltos de redirección HTTP GET para URL-mesas de motor. La configuración se aplica a ambos tipos de tablas: las creadas por CREATE TABLE consulta y por el URL función de la tabla.
Valores posibles:
- Cualquier número entero positivo de saltos.
- 0 — No hops allowed.
Valor predeterminado: 0.
Entrada_format_allow_errors_num
Establece el número máximo de errores aceptables al leer desde formatos de texto (CSV, TSV, etc.).
El valor predeterminado es 0.
Siempre emparejarlo con input_format_allow_errors_ratio
.
Si se produjo un error al leer filas, pero el contador de errores sigue siendo menor que input_format_allow_errors_num
, ClickHouse ignora la fila y pasa a la siguiente.
Si ambos input_format_allow_errors_num
y input_format_allow_errors_ratio
se exceden, ClickHouse lanza una excepción.
Entrada_format_allow_errors_ratio
Establece el porcentaje máximo de errores permitidos al leer desde formatos de texto (CSV, TSV, etc.). El porcentaje de errores se establece como un número de punto flotante entre 0 y 1.
El valor predeterminado es 0.
Siempre emparejarlo con input_format_allow_errors_num
.
Si se produjo un error al leer filas, pero el contador de errores sigue siendo menor que input_format_allow_errors_ratio
, ClickHouse ignora la fila y pasa a la siguiente.
Si ambos input_format_allow_errors_num
y input_format_allow_errors_ratio
se exceden, ClickHouse lanza una excepción.
input_format_values_interpret_expressions
Habilita o deshabilita el analizador SQL completo si el analizador de secuencias rápidas no puede analizar los datos. Esta configuración sólo se utiliza para Valor formato en la inserción de datos. Para obtener más información sobre el análisis de sintaxis, consulte Sintaxis apartado.
Valores posibles:
-
0 — Disabled.
En este caso, debe proporcionar datos con formato. Ver el Formato apartado.
-
1 — Enabled.
En este caso, puede usar una expresión SQL como valor, pero la inserción de datos es mucho más lenta de esta manera. Si inserta solo datos con formato, ClickHouse se comporta como si el valor de configuración fuera 0.
Valor predeterminado: 1.
Ejemplo de uso
Inserte el FechaHora valor de tipo con los diferentes ajustes.
SET input_format_values_interpret_expressions = 0;
INSERT INTO datetime_t VALUES (now())
Exception on client:
Code: 27. DB::Exception: Cannot parse input: expected ) before: now()): (at row 1)
SET input_format_values_interpret_expressions = 1;
INSERT INTO datetime_t VALUES (now())
Ok.
La última consulta es equivalente a la siguiente:
SET input_format_values_interpret_expressions = 0;
INSERT INTO datetime_t SELECT now()
Ok.
input_format_values_deduce_templates_of_expressions
Habilita o deshabilita la deducción de plantilla para expresiones SQL en Valor formato. Permite analizar e interpretar expresiones en Values
mucho más rápido si las expresiones en filas consecutivas tienen la misma estructura. ClickHouse intenta deducir la plantilla de una expresión, analizar las siguientes filas utilizando esta plantilla y evaluar la expresión en un lote de filas analizadas correctamente.
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 1.
Para la siguiente consulta:
INSERT INTO test VALUES (lower('Hello')), (lower('world')), (lower('INSERT')), (upper('Values')), ...
- Si
input_format_values_interpret_expressions=1
yformat_values_deduce_templates_of_expressions=0
, las expresiones se interpretan por separado para cada fila (esto es muy lento para un gran número de filas). - Si
input_format_values_interpret_expressions=0
yformat_values_deduce_templates_of_expressions=1
, las expresiones en la primera, segunda y tercera filas se analizan usando la plantillalower(String)
e interpretados juntos, la expresión en la cuarta fila se analiza con otra plantilla (upper(String)
). - Si
input_format_values_interpret_expressions=1
yformat_values_deduce_templates_of_expressions=1
, lo mismo que en el caso anterior, pero también permite la alternativa a la interpretación de expresiones por separado si no es posible deducir la plantilla.
Entrada_format_values_accurate_types_of_literals
Esta configuración sólo se utiliza cuando input_format_values_deduce_templates_of_expressions = 1
. Puede suceder que las expresiones para alguna columna tengan la misma estructura, pero contengan literales numéricos de diferentes tipos, por ejemplo
(..., abs(0), ...), -- UInt64 literal
(..., abs(3.141592654), ...), -- Float64 literal
(..., abs(-1), ...), -- Int64 literal
Valores posibles:
-
0 — Disabled.
In this case, ClickHouse may use a more general type for some literals (e.g.,
Float64
oInt64
en lugar deUInt64
para42
), pero puede causar problemas de desbordamiento y precisión. -
1 — Enabled.
En este caso, ClickHouse comprueba el tipo real de literal y utiliza una plantilla de expresión del tipo correspondiente. En algunos casos, puede ralentizar significativamente la evaluación de expresiones en
Values
.
Valor predeterminado: 1.
Entrada_format_defaults_for_omitted_fields
Al realizar INSERT
consultas, reemplace los valores de columna de entrada omitidos con valores predeterminados de las columnas respectivas. Esta opción sólo se aplica a JSONEachRow, CSV y TabSeparated formato.
!!! note "Nota" Cuando esta opción está habilitada, los metadatos de la tabla extendida se envían del servidor al cliente. Consume recursos informáticos adicionales en el servidor y puede reducir el rendimiento.
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 1.
input_format_tsv_empty_as_default
Cuando esté habilitado, reemplace los campos de entrada vacíos en TSV con valores predeterminados. Para expresiones predeterminadas complejas input_format_defaults_for_omitted_fields
debe estar habilitado también.
Deshabilitado de forma predeterminada.
input_format_null_as_default
Habilita o deshabilita el uso de valores predeterminados si los datos de entrada NULL
, pero el tipo de datos de la columna correspondiente en no Nullable(T)
(para formatos de entrada de texto).
input_format_skip_unknown_fields
Habilita o deshabilita omitir la inserción de datos adicionales.
Al escribir datos, ClickHouse produce una excepción si los datos de entrada contienen columnas que no existen en la tabla de destino. Si la omisión está habilitada, ClickHouse no inserta datos adicionales y no lanza una excepción.
Formatos soportados:
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 0.
Entrada_format_import_nested_json
Habilita o deshabilita la inserción de datos JSON con objetos anidados.
Formatos soportados:
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 0.
Ver también:
- Uso de estructuras anidadas con el
JSONEachRow
formato.
Entrada_format_with_names_use_header
Habilita o deshabilita la comprobación del orden de las columnas al insertar datos.
Para mejorar el rendimiento de la inserción, se recomienda deshabilitar esta comprobación si está seguro de que el orden de columna de los datos de entrada es el mismo que en la tabla de destino.
Formatos soportados:
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 1.
Date_time_input_format
Permite elegir un analizador de la representación de texto de fecha y hora.
La configuración no se aplica a Funciones de fecha y hora.
Valores posibles:
-
'best_effort'
— Enables extended parsing.ClickHouse puede analizar el básico
YYYY-MM-DD HH:MM:SS
formato y todo ISO 8601 formatos de fecha y hora. Por ejemplo,'2018-06-08T01:02:03.000Z'
. -
'basic'
— Use basic parser.ClickHouse puede analizar solo lo básico
YYYY-MM-DD HH:MM:SS
formato. Por ejemplo,'2019-08-20 10:18:56'
.
Valor predeterminado: 'basic'
.
Ver también:
Por favor, introduzca su dirección de correo electrónico
Establece el rigor predeterminado para Cláusulas JOIN.
Valores posibles:
ALL
— If the right table has several matching rows, ClickHouse creates a Producto cartesiano de filas coincidentes. Esta es la normalJOIN
comportamiento de SQL estándar.ANY
— If the right table has several matching rows, only the first one found is joined. If the right table has only one matching row, the results ofANY
yALL
son los mismos.ASOF
— For joining sequences with an uncertain match.Empty string
— IfALL
oANY
no se especifica en la consulta, ClickHouse produce una excepción.
Valor predeterminado: ALL
.
join_any_take_last_row
Cambia el comportamiento de las operaciones de unión con ANY
rigor.
!!! warning "Atención"
Esta configuración sólo se aplica a JOIN
operaciones con Unir mesas de motores.
Valores posibles:
- 0 — If the right table has more than one matching row, only the first one found is joined.
- 1 — If the right table has more than one matching row, only the last one found is joined.
Valor predeterminado: 0.
Ver también:
Sistema abierto
Establece el tipo de JOIN comportamiento. Al fusionar tablas, pueden aparecer celdas vacías. ClickHouse los rellena de manera diferente según esta configuración.
Valores posibles:
- 0 — The empty cells are filled with the default value of the corresponding field type.
- 1 —
JOIN
se comporta de la misma manera que en SQL estándar. El tipo del campo correspondiente se convierte en NULL, y las celdas vacías se llenan con NULL.
Valor predeterminado: 0.
max_block_size
En ClickHouse, los datos se procesan mediante bloques (conjuntos de partes de columna). Los ciclos de procesamiento interno para un solo bloque son lo suficientemente eficientes, pero hay gastos notables en cada bloque. El max_block_size
set es una recomendación para el tamaño del bloque (en un recuento de filas) para cargar desde las tablas. El tamaño del bloque no debe ser demasiado pequeño, por lo que los gastos en cada bloque aún se notan, pero no demasiado grande para que la consulta con LIMIT que se complete después del primer bloque se procese rápidamente. El objetivo es evitar consumir demasiada memoria al extraer un gran número de columnas en múltiples subprocesos y preservar al menos alguna localidad de caché.
Valor predeterminado: 65,536.
Bloquea el tamaño de max_block_size
no siempre se cargan desde la tabla. Si es obvio que se deben recuperar menos datos, se procesa un bloque más pequeño.
preferred_block_size_bytes
Utilizado para el mismo propósito que max_block_size
, pero establece el tamaño de bloque recomendado en bytes adaptándolo al número de filas en el bloque.
Sin embargo, el tamaño del bloque no puede ser más que max_block_size
filas.
Por defecto: 1,000,000. Solo funciona cuando se lee desde los motores MergeTree.
merge_tree_min_rows_for_concurrent_read
Si el número de filas que se leerán de un fichero Método de codificación de datos: mesa excede merge_tree_min_rows_for_concurrent_read
luego ClickHouse intenta realizar una lectura simultánea de este archivo en varios hilos.
Valores posibles:
- Cualquier entero positivo.
Valor predeterminado: 163840.
merge_tree_min_bytes_for_concurrent_read
Si el número de bytes a leer de un archivo de un Método de codificación de datos:-La tabla del motor excede merge_tree_min_bytes_for_concurrent_read
, entonces ClickHouse intenta leer simultáneamente este archivo en varios subprocesos.
Valor posible:
- Cualquier entero positivo.
Valor predeterminado: 251658240.
Método de codificación de datos:
Si la distancia entre dos bloques de datos que se leen en un archivo es menor que merge_tree_min_rows_for_seek
filas, luego ClickHouse no busca a través del archivo, sino que lee los datos secuencialmente.
Valores posibles:
- Cualquier entero positivo.
Valor predeterminado: 0.
merge_tree_min_bytes_for_seek
Si la distancia entre dos bloques de datos que se leen en un archivo es menor que merge_tree_min_bytes_for_seek
bytes, luego ClickHouse lee secuencialmente un rango de archivos que contiene ambos bloques, evitando así la búsqueda adicional.
Valores posibles:
- Cualquier entero positivo.
Valor predeterminado: 0.
merge_tree_coarse_index_granularity
Al buscar datos, ClickHouse comprueba las marcas de datos en el archivo de índice. Si ClickHouse encuentra que las claves requeridas están en algún rango, divide este rango en merge_tree_coarse_index_granularity
subintervalos y busca las claves necesarias allí de forma recursiva.
Valores posibles:
- Cualquier entero incluso positivo.
Valor predeterminado: 8.
merge_tree_max_rows_to_use_cache
Si ClickHouse debería leer más de merge_tree_max_rows_to_use_cache
en una consulta, no usa la memoria caché de bloques sin comprimir.
La memoria caché de bloques sin comprimir almacena datos extraídos para consultas. ClickHouse utiliza esta memoria caché para acelerar las respuestas a pequeñas consultas repetidas. Esta configuración protege la memoria caché del deterioro de las consultas que leen una gran cantidad de datos. El Uncompressed_cache_size configuración del servidor define el tamaño de la memoria caché de bloques sin comprimir.
Valores posibles:
- Cualquier entero positivo.
Default value: 128 ✕ 8192.
merge_tree_max_bytes_to_use_cache
Si ClickHouse debería leer más de merge_tree_max_bytes_to_use_cache
bytes en una consulta, no usa el caché de bloques sin comprimir.
La memoria caché de bloques sin comprimir almacena datos extraídos para consultas. ClickHouse utiliza esta memoria caché para acelerar las respuestas a pequeñas consultas repetidas. Esta configuración protege la memoria caché del deterioro de las consultas que leen una gran cantidad de datos. El Uncompressed_cache_size configuración del servidor define el tamaño de la memoria caché de bloques sin comprimir.
Valor posible:
- Cualquier entero positivo.
Valor predeterminado: 2013265920.
Todos los derechos reservados
El volumen de datos mínimo necesario para utilizar el acceso directo de E/S al disco de almacenamiento.
ClickHouse usa esta configuración al leer datos de tablas. Si el volumen total de almacenamiento de todos los datos a leer excede min_bytes_to_use_direct_io
luego ClickHouse lee los datos del disco de almacenamiento con el O_DIRECT
opcion.
Valores posibles:
- 0 — Direct I/O is disabled.
- Entero positivo.
Valor predeterminado: 0.
Log_queries
Configuración del registro de consultas.
Las consultas enviadas a ClickHouse con esta configuración se registran de acuerdo con las reglas query_log parámetro de configuración del servidor.
Ejemplo:
log_queries=1
Nombre de la red inalámbrica (SSID):
query_log
tipo mínimo para iniciar sesión.
Valores posibles:
QUERY_START
(=1
)QUERY_FINISH
(=2
)EXCEPTION_BEFORE_START
(=3
)EXCEPTION_WHILE_PROCESSING
(=4
)
Valor predeterminado: QUERY_START
.
Se puede usar para limitar a qué entiries va query_log
, digamos que eres interesante solo en errores, entonces puedes usar EXCEPTION_WHILE_PROCESSING
:
log_queries_min_type='EXCEPTION_WHILE_PROCESSING'
Log_query_threads
Configuración del registro de subprocesos de consulta.
Los subprocesos de consultas ejecutados por ClickHouse con esta configuración se registran de acuerdo con las reglas en el Sistema abierto. parámetro de configuración del servidor.
Ejemplo:
log_query_threads=1
Max_insert_block_size
El tamaño de los bloques a formar para su inserción en una tabla. Esta configuración solo se aplica en los casos en que el servidor forma los bloques. Por ejemplo, para un INSERT a través de la interfaz HTTP, el servidor analiza el formato de datos y forma bloques del tamaño especificado. Pero al usar clickhouse-client, el cliente analiza los datos en sí, y el ‘max_insert_block_size’ configuración en el servidor no afecta el tamaño de los bloques insertados. La configuración tampoco tiene un propósito cuando se usa INSERT SELECT , ya que los datos se insertan usando los mismos bloques que se forman después de SELECT .
Valor predeterminado: 1.048.576.
El valor predeterminado es ligeramente más que max_block_size
. La razón de esto se debe a que ciertos motores de mesa (*MergeTree
) formar una parte de datos en el disco para cada bloque insertado, que es una entidad bastante grande. Similar, *MergeTree
las tablas ordenan los datos durante la inserción y un tamaño de bloque lo suficientemente grande permiten clasificar más datos en la RAM.
Nombre de la red inalámbrica (SSID):
Establece el número mínimo de filas en el bloque que se pueden insertar en una tabla INSERT
consulta. Los bloques de menor tamaño se aplastan en otros más grandes.
Valores posibles:
- Entero positivo.
- 0 — Squashing disabled.
Valor predeterminado: 1048576.
Todos los derechos reservados
Establece el número mínimo de bytes en el bloque que se pueden insertar en una tabla INSERT
consulta. Los bloques de menor tamaño se aplastan en otros más grandes.
Valores posibles:
- Entero positivo.
- 0 — Squashing disabled.
Valor predeterminado: 268435456.
max_replica_delay_for_distributed_queries
Deshabilita las réplicas rezagadas para consultas distribuidas. Ver Replicación.
Establece el tiempo en segundos. Si una réplica tiene un retraso superior al valor establecido, no se utiliza esta réplica.
Valor predeterminado: 300.
Se utiliza al realizar SELECT
desde una tabla distribuida que apunta a tablas replicadas.
max_threads
El número máximo de subprocesos de procesamiento de consultas, excluyendo subprocesos para recuperar datos de servidores ‘max_distributed_connections’ parámetro).
Este parámetro se aplica a los subprocesos que realizan las mismas etapas de la canalización de procesamiento de consultas en paralelo. Por ejemplo, al leer desde una tabla, si es posible evaluar expresiones con funciones, filtre con WHERE y preagregue para GROUP BY en paralelo usando al menos ‘max_threads’ número de hilos, entonces ‘max_threads’ se utilizan.
Valor predeterminado: el número de núcleos de CPU físicos.
Si normalmente se ejecuta menos de una consulta SELECT en un servidor a la vez, establezca este parámetro en un valor ligeramente inferior al número real de núcleos de procesador.
Para las consultas que se completan rápidamente debido a un LIMIT, puede establecer un ‘max_threads’. Por ejemplo, si el número necesario de entradas se encuentra en cada bloque y max_threads = 8, entonces se recuperan 8 bloques, aunque hubiera sido suficiente leer solo uno.
Cuanto menor sea el max_threads
valor, menos memoria se consume.
Método de codificación de datos:
El número máximo de subprocesos para ejecutar el INSERT SELECT
consulta.
Valores posibles:
- 0 (or 1) —
INSERT SELECT
sin ejecución paralela. - Entero positivo. Más grande que 1.
Valor predeterminado: 0.
Paralelo INSERT SELECT
sólo tiene efecto si el SELECT
parte se ejecuta en paralelo, ver max_threads configuración.
Los valores más altos conducirán a un mayor uso de memoria.
max_compress_block_size
El tamaño máximo de bloques de datos sin comprimir antes de comprimir para escribir en una tabla. De forma predeterminada, 1.048.576 (1 MiB). Si se reduce el tamaño, la tasa de compresión se reduce significativamente, la velocidad de compresión y descompresión aumenta ligeramente debido a la localidad de la memoria caché, y se reduce el consumo de memoria. Por lo general, no hay ninguna razón para cambiar esta configuración.
No confunda bloques para la compresión (un fragmento de memoria que consta de bytes) con bloques para el procesamiento de consultas (un conjunto de filas de una tabla).
Descripción del producto
Para Método de codificación de datos:" tabla. Para reducir la latencia al procesar consultas, un bloque se comprime al escribir la siguiente marca si su tamaño es al menos ‘min_compress_block_size’. De forma predeterminada, 65.536.
El tamaño real del bloque, si los datos sin comprimir son menores que ‘max_compress_block_size’, no es menor que este valor y no menor que el volumen de datos para una marca.
Veamos un ejemplo. Supongamos que ‘index_granularity’ se estableció en 8192 durante la creación de la tabla.
Estamos escribiendo una columna de tipo UInt32 (4 bytes por valor). Al escribir 8192 filas, el total será de 32 KB de datos. Como min_compress_block_size = 65,536, se formará un bloque comprimido por cada dos marcas.
Estamos escribiendo una columna URL con el tipo String (tamaño promedio de 60 bytes por valor). Al escribir 8192 filas, el promedio será ligeramente inferior a 500 KB de datos. Como esto es más de 65,536, se formará un bloque comprimido para cada marca. En este caso, al leer datos del disco en el rango de una sola marca, los datos adicionales no se descomprimirán.
Por lo general, no hay ninguna razón para cambiar esta configuración.
max_query_size
La parte máxima de una consulta que se puede llevar a la RAM para analizar con el analizador SQL. La consulta INSERT también contiene datos para INSERT que es procesado por un analizador de secuencias independiente (que consume O(1) RAM), que no está incluido en esta restricción.
Valor predeterminado: 256 KiB.
interactive_delay
El intervalo en microsegundos para comprobar si la ejecución de la solicitud se ha cancelado y enviar el progreso.
Valor predeterminado: 100.000 (comprueba la cancelación y envía el progreso diez veces por segundo).
¿Cómo puedo hacerlo?
Tiempos de espera en segundos en el socket utilizado para comunicarse con el cliente.
Valor predeterminado: 10, 300, 300.
Cancel_http_readonly_queries_on_client_close
Cancels HTTP read-only queries (e.g. SELECT) when a client closes the connection without waiting for the response.
Valor predeterminado: 0
poll_interval
Bloquear en un bucle de espera durante el número especificado de segundos.
Valor predeterminado: 10.
max_distributed_connections
El número máximo de conexiones simultáneas con servidores remotos para el procesamiento distribuido de una única consulta a una única tabla distribuida. Se recomienda establecer un valor no menor que el número de servidores en el clúster.
Valor predeterminado: 1024.
Los siguientes parámetros solo se usan al crear tablas distribuidas (y al iniciar un servidor), por lo que no hay ninguna razón para cambiarlas en tiempo de ejecución.
Distributed_connections_pool_size
El número máximo de conexiones simultáneas con servidores remotos para el procesamiento distribuido de todas las consultas a una única tabla distribuida. Se recomienda establecer un valor no menor que el número de servidores en el clúster.
Valor predeterminado: 1024.
Conecte_timeout_with_failover_ms
El tiempo de espera en milisegundos para conectarse a un servidor remoto para un motor de tablas distribuidas ‘shard’ y ‘replica’ secciones se utilizan en la definición de clúster. Si no tiene éxito, se realizan varios intentos para conectarse a varias réplicas.
Valor predeterminado: 50.
connections_with_failover_max_tries
El número máximo de intentos de conexión con cada réplica para el motor de tablas distribuidas.
Valor predeterminado: 3.
extremo
Ya sea para contar valores extremos (los mínimos y máximos en columnas de un resultado de consulta). Acepta 0 o 1. De forma predeterminada, 0 (deshabilitado). Para obtener más información, consulte la sección “Extreme values”.
Use_uncompressed_cache
Si se debe usar una memoria caché de bloques sin comprimir. Acepta 0 o 1. De forma predeterminada, 0 (deshabilitado). El uso de la memoria caché sin comprimir (solo para tablas de la familia MergeTree) puede reducir significativamente la latencia y aumentar el rendimiento cuando se trabaja con un gran número de consultas cortas. Habilite esta configuración para los usuarios que envían solicitudes cortas frecuentes. También preste atención al Uncompressed_cache_size configuration parameter (only set in the config file) – the size of uncompressed cache blocks. By default, it is 8 GiB. The uncompressed cache is filled in as needed and the least-used data is automatically deleted.
Para consultas que leen al menos un volumen algo grande de datos (un millón de filas o más), la memoria caché sin comprimir se desactiva automáticamente para ahorrar espacio para consultas realmente pequeñas. Esto significa que puede mantener el ‘use_uncompressed_cache’ ajuste siempre establecido en 1.
Reemplazar_running_query
Cuando se utiliza la interfaz HTTP, el ‘query_id’ parámetro puede ser pasado. Se trata de cualquier cadena que sirva como identificador de consulta. Si una consulta del mismo usuario ‘query_id’ que ya existe en este momento, el comportamiento depende de la ‘replace_running_query’ parámetro.
0
(default) – Throw an exception (don't allow the query to run if a query with the same ‘query_id’ ya se está ejecutando).
1
– Cancel the old query and start running the new one.
El Yandex.Metrica utiliza este parámetro establecido en 1 para implementar sugerencias para las condiciones de segmentación. Después de ingresar el siguiente carácter, si la consulta anterior aún no ha finalizado, debe cancelarse.
Nombre de la red inalámbrica (SSID):
Funciona para tablas con streaming en el caso de un tiempo de espera, o cuando un subproceso genera Max_insert_block_size filas.
El valor predeterminado es 7500.
Cuanto menor sea el valor, más a menudo los datos se vacían en la tabla. Establecer el valor demasiado bajo conduce a un rendimiento deficiente.
load_balancing
Especifica el algoritmo de selección de réplicas que se utiliza para el procesamiento de consultas distribuidas.
ClickHouse admite los siguientes algoritmos para elegir réplicas:
- Aleatorio (predeterminada)
- Nombre de host más cercano
- En orden
- Primero o aleatorio
Aleatorio (por defecto)
load_balancing = random
El número de errores se cuenta para cada réplica. La consulta se envía a la réplica con el menor número de errores, y si hay varios de estos, a cualquiera de ellos. Desventajas: La proximidad del servidor no se tiene en cuenta; si las réplicas tienen datos diferentes, también obtendrá datos diferentes.
Nombre de host más cercano
load_balancing = nearest_hostname
The number of errors is counted for each replica. Every 5 minutes, the number of errors is integrally divided by 2. Thus, the number of errors is calculated for a recent time with exponential smoothing. If there is one replica with a minimal number of errors (i.e. errors occurred recently on the other replicas), the query is sent to it. If there are multiple replicas with the same minimal number of errors, the query is sent to the replica with a hostname that is most similar to the server's hostname in the config file (for the number of different characters in identical positions, up to the minimum length of both hostnames).
Por ejemplo, example01-01-1 y example01-01-2.yandex.ru son diferentes en una posición, mientras que example01-01-1 y example01-02-2 difieren en dos lugares. Este método puede parecer primitivo, pero no requiere datos externos sobre la topología de red, y no compara las direcciones IP, lo que sería complicado para nuestras direcciones IPv6.
Por lo tanto, si hay réplicas equivalentes, se prefiere la más cercana por nombre. También podemos suponer que al enviar una consulta al mismo servidor, en ausencia de fallas, una consulta distribuida también irá a los mismos servidores. Por lo tanto, incluso si se colocan datos diferentes en las réplicas, la consulta devolverá principalmente los mismos resultados.
En orden
load_balancing = in_order
Se accede a las réplicas con el mismo número de errores en el mismo orden en que se especifican en la configuración. Este método es apropiado cuando se sabe exactamente qué réplica es preferible.
Primero o aleatorio
load_balancing = first_or_random
Este algoritmo elige la primera réplica del conjunto o una réplica aleatoria si la primera no está disponible. Es efectivo en configuraciones de topología de replicación cruzada, pero inútil en otras configuraciones.
El first_or_random
resuelve el problema del algoritmo in_order
algoritmo. Con in_order
, si una réplica se cae, la siguiente obtiene una carga doble mientras que las réplicas restantes manejan la cantidad habitual de tráfico. Cuando se utiliza el first_or_random
algoritmo, la carga se distribuye uniformemente entre las réplicas que todavía están disponibles.
prefer_localhost_replica
Habilita/deshabilita el uso preferible de la réplica localhost al procesar consultas distribuidas.
Valores posibles:
- 1 — ClickHouse always sends a query to the localhost replica if it exists.
- 0 — ClickHouse uses the balancing strategy specified by the load_balancing configuración.
Valor predeterminado: 1.
!!! warning "Advertencia" Deshabilite esta configuración si usa max_parallel_replicas.
totals_mode
Cómo calcular TOTALS cuando HAVING está presente, así como cuando max_rows_to_group_by y group_by_overflow_mode = ‘any’ están presentes. Vea la sección “WITH TOTALS modifier”.
totals_auto_threshold
El umbral para totals_mode = 'auto'
.
Vea la sección “WITH TOTALS modifier”.
max_parallel_replicas
El número máximo de réplicas para cada fragmento al ejecutar una consulta. Para obtener coherencia (para obtener diferentes partes de la misma división de datos), esta opción solo funciona cuando se establece la clave de muestreo. El retraso de réplica no está controlado.
compilar
Habilitar la compilación de consultas. De forma predeterminada, 0 (deshabilitado).
La compilación solo se usa para parte de la canalización de procesamiento de consultas: para la primera etapa de agregación (GROUP BY). Si se compiló esta parte de la canalización, la consulta puede ejecutarse más rápido debido a la implementación de ciclos cortos y a las llamadas de función agregadas en línea. La mejora del rendimiento máximo (hasta cuatro veces más rápido en casos excepcionales) se ve para consultas con múltiples funciones agregadas simples. Por lo general, la ganancia de rendimiento es insignificante. En casos muy raros, puede ralentizar la ejecución de la consulta.
min_count_to_compile
¿Cuántas veces usar potencialmente un fragmento de código compilado antes de ejecutar la compilación? Por defecto, 3. For testing, the value can be set to 0: compilation runs synchronously and the query waits for the end of the compilation process before continuing execution. For all other cases, use values starting with 1. Compilation normally takes about 5-10 seconds. Si el valor es 1 o más, la compilación se produce de forma asíncrona en un subproceso independiente. El resultado se utilizará tan pronto como esté listo, incluidas las consultas que se están ejecutando actualmente.
Se requiere código compilado para cada combinación diferente de funciones agregadas utilizadas en la consulta y el tipo de claves en la cláusula GROUP BY. The results of the compilation are saved in the build directory in the form of .so files. There is no restriction on the number of compilation results since they don't use very much space. Old results will be used after server restarts, except in the case of a server upgrade – in this case, the old results are deleted.
output_format_json_quote_64bit_integers
Si el valor es true, los enteros aparecen entre comillas cuando se usan los formatos JSON* Int64 y UInt64 (por compatibilidad con la mayoría de las implementaciones de JavaScript); de lo contrario, los enteros se generan sin las comillas.
Formato_csv_delimiter
El carácter interpretado como un delimitador en los datos CSV. De forma predeterminada, el delimitador es ,
.
input_format_csv_unquoted_null_literal_as_null
Para el formato de entrada CSV, habilita o deshabilita el análisis de NULL
como literal (sinónimo de \N
).
output_format_csv_crlf_end_of_line
Utilice el separador de línea de estilo DOS / Windows (CRLF) en CSV en lugar de estilo Unix (LF).
output_format_tsv_crlf_end_of_line
Utilice el separador de línea de estilo DOC / Windows (CRLF) en TSV en lugar del estilo Unix (LF).
insert_quorum
Habilita las escrituras de quórum.
- Si
insert_quorum < 2
, las escrituras de quórum están deshabilitadas. - Si
insert_quorum >= 2
, las escrituras de quórum están habilitadas.
Valor predeterminado: 0.
Quorum escribe
INSERT
solo tiene éxito cuando ClickHouse logra escribir correctamente datos en el insert_quorum
de réplicas durante el insert_quorum_timeout
. Si por alguna razón el número de réplicas con escrituras exitosas no alcanza el insert_quorum
, la escritura se considera fallida y ClickHouse eliminará el bloque insertado de todas las réplicas donde los datos ya se han escrito.
Todas las réplicas del quórum son consistentes, es decir, contienen datos de todas las réplicas anteriores INSERT
consulta. El INSERT
la secuencia está linealizada.
Al leer los datos escritos desde el insert_quorum
usted puede utilizar el select_sequential_consistency opcion.
ClickHouse genera una excepción
- Si el número de réplicas disponibles en el momento de la consulta es
insert_quorum
. - En un intento de escribir datos cuando el bloque anterior aún no se ha insertado en el
insert_quorum
de réplicas. Esta situación puede ocurrir si el usuario intenta realizar unaINSERT
antes de la anterior con elinsert_quorum
se ha completado.
Ver también:
insert_quorum_timeout
Escribir en tiempo de espera de quórum en segundos. Si el tiempo de espera ha pasado y aún no se ha realizado ninguna escritura, ClickHouse generará una excepción y el cliente debe repetir la consulta para escribir el mismo bloque en la misma réplica o en cualquier otra réplica.
Valor predeterminado: 60 segundos.
Ver también:
select_sequential_consistency
Habilita o deshabilita la coherencia secuencial para SELECT
consulta:
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 0.
Uso
Cuando se habilita la coherencia secuencial, ClickHouse permite al cliente ejecutar el SELECT
consulta sólo para aquellas réplicas que contienen datos de todas las INSERT
consultas ejecutadas con insert_quorum
. Si el cliente hace referencia a una réplica parcial, ClickHouse generará una excepción. La consulta SELECT no incluirá datos que aún no se hayan escrito en el quórum de réplicas.
Ver también:
insert_deduplicate
Habilita o deshabilita la desduplicación de bloques INSERT
(para tablas replicadas*
Valores posibles:
- 0 — Disabled.
- 1 — Enabled.
Valor predeterminado: 1.
De forma predeterminada, los bloques insertados en tablas replicadas INSERT
declaración se deduplican (ver Replicación de datos).
deduplicate_blocks_in_dependent_materialized_views
Habilita o deshabilita la comprobación de desduplicación para las vistas materializadas que reciben datos de tablas replicadas*.
Valores posibles:
0 — Disabled.
1 — Enabled.
Valor predeterminado: 0.
Uso
De forma predeterminada, la desduplicación no se realiza para las vistas materializadas, sino que se realiza en sentido ascendente, en la tabla de origen.
Si se omite un bloque INSERTed debido a la desduplicación en la tabla de origen, no habrá inserción en las vistas materializadas adjuntas. Este comportamiento existe para permitir la inserción de datos altamente agregados en vistas materializadas, para los casos en que los bloques insertados son los mismos después de la agregación de vistas materializadas pero derivados de diferentes INSERT en la tabla de origen.
Al mismo tiempo, este comportamiento “breaks” INSERT
idempotencia. Si una INSERT
en la mesa principal fue exitoso y INSERT
into a materialized view failed (e.g. because of communication failure with Zookeeper) a client will get an error and can retry the operation. However, the materialized view won't receive the second insert because it will be discarded by deduplication in the main (source) table. The setting deduplicate_blocks_in_dependent_materialized_views
permite cambiar este comportamiento. Al reintentar, una vista materializada recibirá la inserción de repetición y realizará la comprobación de desduplicación por sí misma,
ignorando el resultado de la comprobación para la tabla de origen, e insertará filas perdidas debido a la primera falla.
Método de codificación de datos:
Limita el volumen de datos (en bytes) que se recibe o se transmite a través de la red al ejecutar una consulta. Esta configuración se aplica a cada consulta individual.
Valores posibles:
- Entero positivo.
- 0 — Data volume control is disabled.
Valor predeterminado: 0.
Método de codificación de datos:
Limita la velocidad del intercambio de datos a través de la red en bytes por segundo. Esta configuración se aplica a todas las consultas.
Valores posibles:
- Entero positivo.
- 0 — Bandwidth control is disabled.
Valor predeterminado: 0.
Todos los derechos reservados
Limita la velocidad del intercambio de datos a través de la red en bytes por segundo. Esta configuración se aplica a todas las consultas que se ejecutan simultáneamente realizadas por un único usuario.
Valores posibles:
- Entero positivo.
- 0 — Control of the data speed is disabled.
Valor predeterminado: 0.
Todos los derechos reservados
Limita la velocidad a la que se intercambian datos a través de la red en bytes por segundo. Esta configuración se aplica a todas las consultas que se ejecutan simultáneamente en el servidor.
Valores posibles:
- Entero positivo.
- 0 — Control of the data speed is disabled.
Valor predeterminado: 0.
count_distinct_implementation
Especifica cuál de las uniq*
se deben utilizar para realizar el COUNT(DISTINCT …) construcción.
Valores posibles:
Valor predeterminado: uniqExact
.
skip_unavailable_shards
Habilita o deshabilita la omisión silenciosa de fragmentos no disponibles.
El fragmento se considera no disponible si todas sus réplicas no están disponibles. Una réplica no está disponible en los siguientes casos:
-
ClickHouse no puede conectarse a la réplica por ningún motivo.
Al conectarse a una réplica, ClickHouse realiza varios intentos. Si todos estos intentos fallan, la réplica se considera que no está disponible.
-
La réplica no se puede resolver a través de DNS.
Si el nombre de host de la réplica no se puede resolver a través de DNS, puede indicar las siguientes situaciones:
-
El host de Replica no tiene registro DNS. Puede ocurrir en sistemas con DNS dinámico, por ejemplo, Kubernetes, donde los nodos pueden ser irresolubles durante el tiempo de inactividad, y esto no es un error.
-
Error de configuración. El archivo de configuración de ClickHouse contiene un nombre de host incorrecto.
-
Valores posibles:
-
1 — skipping enabled.
Si un fragmento no está disponible, ClickHouse devuelve un resultado basado en datos parciales y no informa de problemas de disponibilidad de nodos.
-
0 — skipping disabled.
Si un fragmento no está disponible, ClickHouse produce una excepción.
Valor predeterminado: 0.
Optize_skip_unused_shards
Habilita o deshabilita la omisión de fragmentos no utilizados para las consultas SELECT que tienen la condición de clave de fragmentación en PREWHERE / WHERE (supone que los datos se distribuyen mediante clave de fragmentación, de lo contrario no hacer nada).
Valor predeterminado: 0
Fuerza_optimize_skip_unused_shards
Habilita o deshabilita la ejecución de consultas si optimize_skip_unused_shards
no es posible omitir fragmentos no utilizados. Si la omisión no es posible y la configuración está habilitada, se lanzará una excepción.
Valores posibles:
- 0 - Discapacitados (no lanza)
- 1: deshabilite la ejecución de consultas solo si la tabla tiene una clave de fragmentación
- 2: deshabilita la ejecución de consultas independientemente de que se haya definido la clave de fragmentación para la tabla
Valor predeterminado: 0
Optize_throw_if_noop
Habilita o deshabilita el lanzamiento de una excepción OPTIMIZE la consulta no realizó una fusión.
Predeterminada, OPTIMIZE
devuelve con éxito incluso si no hizo nada. Esta configuración le permite diferenciar estas situaciones y obtener el motivo en un mensaje de excepción.
Valores posibles:
- 1 — Throwing an exception is enabled.
- 0 — Throwing an exception is disabled.
Valor predeterminado: 0.
distributed_replica_error_half_life
- Tipo: segundos
- Valor predeterminado: 60 segundos
Controla la rapidez con la que se ponen a cero los errores en las tablas distribuidas. Si una réplica no está disponible durante algún tiempo, acumula 5 errores y distribut_replica_error_half_life se establece en 1 segundo, la réplica se considera normal 3 segundos después del último error.
Ver también:
distributed_replica_error_cap
- Tipo: unsigned int
- Valor predeterminado: 1000
El recuento de errores de cada réplica está limitado a este valor, lo que impide que una sola réplica acumule demasiados errores.
Ver también:
Distributed_directory_monitor_sleep_time_ms
Intervalo base para el Distribuido motor de tabla para enviar datos. El intervalo real crece exponencialmente en caso de errores.
Valores posibles:
- Un número entero positivo de milisegundos.
Valor predeterminado: 100 milisegundos.
Distributed_directory_monitor_max_sleep_time_ms
Intervalo máximo para el Distribuido motor de tabla para enviar datos. Limita el crecimiento exponencial del intervalo establecido en el Distributed_directory_monitor_sleep_time_ms configuración.
Valores posibles:
- Un número entero positivo de milisegundos.
Valor predeterminado: 30000 milisegundos (30 segundos).
distributed_directory_monitor_batch_inserts
Habilita/deshabilita el envío de datos insertados en lotes.
Cuando el envío por lotes está habilitado, el Distribuido El motor de tabla intenta enviar varios archivos de datos insertados en una operación en lugar de enviarlos por separado. El envío por lotes mejora el rendimiento del clúster al utilizar mejor los recursos del servidor y de la red.
Valores posibles:
- 1 — Enabled.
- 0 — Disabled.
Valor predeterminado: 0.
os_thread_priority
Establece la prioridad (agradable) para subprocesos que ejecutan consultas. El programador del sistema operativo considera esta prioridad al elegir el siguiente hilo para ejecutar en cada núcleo de CPU disponible.
!!! warning "Advertencia"
Para utilizar esta configuración, debe establecer el CAP_SYS_NICE
capacidad. El clickhouse-server
paquete lo configura durante la instalación. Algunos entornos virtuales no le permiten establecer CAP_SYS_NICE
capacidad. En este caso, clickhouse-server
muestra un mensaje al respecto al principio.
Valores posibles:
- Puede establecer valores en el rango
[-20, 19]
.
Los valores más bajos significan mayor prioridad. Hilos con bajo nice
Los valores de prioridad se ejecutan con más frecuencia que los subprocesos con valores altos. Los valores altos son preferibles para consultas no interactivas de larga ejecución porque les permite renunciar rápidamente a recursos en favor de consultas interactivas cortas cuando llegan.
Valor predeterminado: 0.
query_profiler_real_time_period_ns
Establece el período para un temporizador de reloj real del perfilador de consultas. El temporizador de reloj real cuenta el tiempo del reloj de pared.
Valores posibles:
-
Número entero positivo, en nanosegundos.
Valores recomendados:
- 10000000 (100 times a second) nanoseconds and less for single queries. - 1000000000 (once a second) for cluster-wide profiling.
-
0 para apagar el temporizador.
Tipo: UInt64.
Valor predeterminado: 1000000000 nanosegundos (una vez por segundo).
Ver también:
- Tabla del sistema trace_log
Los resultados de la prueba
Establece el período para un temporizador de reloj de CPU perfilador de consultas. Este temporizador solo cuenta el tiempo de CPU.
Valores posibles:
-
Un número entero positivo de nanosegundos.
Valores recomendados:
- 10000000 (100 times a second) nanoseconds and more for single queries. - 1000000000 (once a second) for cluster-wide profiling.
-
0 para apagar el temporizador.
Tipo: UInt64.
Valor predeterminado: 1000000000 nanosegundos.
Ver también:
- Tabla del sistema trace_log
allow_introspection_functions
Habilita deshabilita funciones de introspecciones para la creación de perfiles de consultas.
Valores posibles:
- 1 — Introspection functions enabled.
- 0 — Introspection functions disabled.
Valor predeterminado: 0.
Ver también
- Analizador de consultas de muestreo
- Tabla del sistema trace_log
input_format_parallel_parsing
- Tipo: bool
- Valor predeterminado: True
Habilitar el análisis paralelo de los formatos de datos para preservar el orden. Solo se admite para los formatos TSV, TKSV, CSV y JSONEachRow.
También puede utilizar los siguientes métodos de envío:
- Tipo: unsigned int
- Valor predeterminado: 1 MiB
El tamaño mínimo de fragmento en bytes, que cada subproceso analizará en paralelo.
Sistema abierto
Establece el códec de compresión utilizado para el archivo Avro de salida.
Tipo: cadena
Valores posibles:
null
— No compressiondeflate
— Compress with Deflate (zlib)snappy
— Compress with Rápido
Valor predeterminado: snappy
(si está disponible) o deflate
.
Sistema abierto
Establece el tamaño mínimo de datos (en bytes) entre los marcadores de sincronización para el archivo Avro de salida.
Tipo: unsigned int
Valores posibles: 32 (32 bytes) - 1073741824 (1 GiB)
Valor predeterminado: 32768 (32 KiB)
Todos los derechos reservados
Establece la URL del Registro de esquemas confluentes para usar con AvroConfluent formato
Tipo: URL
Valor predeterminado: Vacío
background_pool_size
Establece el número de subprocesos que realizan operaciones en segundo plano en motores de tabla (por ejemplo, fusiona Motor MergeTree tabla). Esta configuración se aplica al inicio del servidor ClickHouse y no se puede cambiar en una sesión de usuario. Al ajustar esta configuración, puede administrar la carga de la CPU y el disco. Un tamaño de grupo más pequeño utiliza menos recursos de CPU y disco, pero los procesos en segundo plano avanzan más lentamente, lo que eventualmente podría afectar el rendimiento de la consulta.
Valores posibles:
- Cualquier entero positivo.
Valor predeterminado: 16.