ClickHouse/docs/fr/engines/table-engines/mergetree-family/summingmergetree.md
Ivan Blinkov d91c97d15d
[docs] replace underscores with hyphens (#10606)
* Replace underscores with hyphens

* remove temporary code

* fix style check

* fix collapse
2020-04-30 21:19:18 +03:00

6.7 KiB
Raw Blame History

machine_translated machine_translated_rev toc_priority toc_title
true f865c9653f 34 SummingMergeTree

Summingmergetree

Le moteur hérite de MergeTree. La différence est que lors de la fusion de parties de données pour SummingMergeTree tables ClickHouse remplace toutes les lignes avec la même clé primaire (ou, plus précisément, avec la même clé de tri) avec une ligne qui contient des valeurs résumées pour les colonnes avec le type de données numériques. Si la clé de tri est composée de telle sorte quune seule valeur de clé correspond à un grand nombre de lignes, cela réduit considérablement le volume de stockage et accélère la sélection des données.

Nous vous recommandons dutiliser le moteur avec MergeTree. Stocker des données complètes dans MergeTree table, et lutilisation SummingMergeTree pour le stockage de données agrégées, par exemple, lors de la préparation de rapports. Une telle approche vous empêchera de perdre des données précieuses en raison dune clé primaire mal composée.

Création dune Table

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
) ENGINE = SummingMergeTree([columns])
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[SETTINGS name=value, ...]

Pour une description des paramètres de requête, voir demande de description.

Paramètres de SummingMergeTree

  • columns - un n-uplet avec les noms de colonnes où les valeurs seront résumées. Paramètre facultatif. Les colonnes doivent être dun type numérique et ne doit pas être dans la clé primaire.

    Si columns non spécifié, ClickHouse résume les valeurs dans toutes les colonnes avec un type de données numérique qui ne sont pas dans la clé primaire.

Les clauses de requête

Lors de la création dun SummingMergeTree la table de la même clause sont nécessaires, comme lors de la création dun MergeTree table.

Méthode obsolète pour créer une Table

!!! attention "Attention" Nutilisez pas cette méthode dans les nouveaux projets et, si possible, remplacez les anciens projets par la méthode décrite ci-dessus.

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
) ENGINE [=] SummingMergeTree(date-column [, sampling_expression], (primary, key), index_granularity, [columns])

Tous les paramètres excepté columns ont la même signification que dans MergeTree.

  • columns — tuple with names of columns values of which will be summarized. Optional parameter. For a description, see the text above.

Exemple DUtilisation

Considérons le tableau suivant:

CREATE TABLE summtt
(
    key UInt32,
    value UInt32
)
ENGINE = SummingMergeTree()
ORDER BY key

Insérer des données:

INSERT INTO summtt Values(1,1),(1,2),(2,1)

ClickHouse peut résumer toutes les lignes pas complètement (voir ci-dessous), nous utilisons donc une fonction dagrégation sum et GROUP BY la clause dans la requête.

SELECT key, sum(value) FROM summtt GROUP BY key
┌─key─┬─sum(value)─┐
│   2 │          1 │
│   1 │          3 │
└─────┴────────────┘

Le Traitement Des Données

Lorsque les données sont insérées dans une table, elles sont enregistrées telles quelles. Clickhouse fusionne périodiquement les parties de données insérées et cest à ce moment que les lignes avec la même clé primaire sont additionnées et remplacées par une pour chaque partie de données résultante.

ClickHouse can merge the data parts so that different resulting parts of data cat consist rows with the same primary key, i.e. the summation will be incomplete. Therefore (SELECT) une fonction dagrégation somme() et GROUP BY la clause doit être utilisé dans une requête comme décrit dans lexemple ci-dessus.

Règles Communes Pour La Sommation

Les valeurs dans les colonnes avec le type de données numériques sont résumées. Lensemble des colonnes est défini par le paramètre columns.

Si les valeurs étaient 0 dans toutes les colonnes pour la sommation, la ligne est supprimée.

Si la colonne nest pas dans la clé primaire et nest pas résumée, une valeur arbitraire est sélectionnée parmi celles existantes.

Les valeurs ne sont pas résumés des colonnes de la clé primaire.

La Somme Dans Les Colonnes Aggregatefunction

Pour les colonnes de Type AggregateFunction ClickHouse se comporte comme AggregatingMergeTree moteur dagrégation selon la fonction.

Structures Imbriquées

Table peut avoir des structures de données imbriquées qui sont traitées dune manière spéciale.

Si le nom dune table imbriquée se termine avec Map et il contient au moins deux colonnes qui répondent aux critères suivants:

  • la première colonne est numérique (*Int*, Date, DateTime) ou une chaîne de caractères (String, FixedString), nous allons lappeler key,
  • les autres colonnes sont arithmétique (*Int*, Float32/64), nous allons lappeler (values...),

ensuite, cette table imbriquée est interprétée comme un mappage de key => (values...) et lors de la fusion de ses lignes, les éléments de deux ensembles de données sont regroupées par key avec une sommation du correspondant (values...).

Exemple:

[(1, 100)] + [(2, 150)] -> [(1, 100), (2, 150)]
[(1, 100)] + [(1, 150)] -> [(1, 250)]
[(1, 100)] + [(1, 150), (2, 150)] -> [(1, 250), (2, 150)]
[(1, 100), (2, 150)] + [(1, -100)] -> [(2, 150)]

Lorsque vous demandez des données, utilisez sumMap (clé, valeur) fonction pour lagrégation de Map.

Pour la structure de données imbriquée, vous navez pas besoin de spécifier ses colonnes dans le tuple de colonnes pour la sommation.

Article Original