ClickHouse/docs/fr/introduction/distinctive-features.md
Ivan Blinkov d91c97d15d
[docs] replace underscores with hyphens (#10606)
* Replace underscores with hyphens

* remove temporary code

* fix style check

* fix collapse
2020-04-30 21:19:18 +03:00

7.1 KiB
Raw Blame History

machine_translated machine_translated_rev toc_priority toc_title
true f865c9653f 4 particularité

Caractéristiques Distinctives De ClickHouse

Vrai SGBD orienté Colonne

Dans un vrai SGBD orienté colonne, aucune donnée supplémentaire nest stockée avec les valeurs. Entre autres choses, cela signifie que les valeurs de longueur constante doivent être prises en charge, pour éviter de stocker leur longueur “number” à côté de ces valeurs. Par exemple, un milliard de valeurs de type UInt8 devrait consommer environ 1 Go non compressé, ou cela affecte fortement lutilisation du processeur. Il est essentiel de stocker des données de manière compacte (sans “garbage”) même lorsquil nest pas compressé, puisque la vitesse de décompression (utilisation du processeur) dépend principalement du volume de données non compressées.

Il est à noter car il existe des systèmes qui peuvent stocker des valeurs de différentes colonnes séparément, mais qui ne peuvent pas traiter efficacement les requêtes analytiques en raison de leur optimisation pour dautres scénarios. Les exemples sont HBase, BigTable, Cassandra et HyperTable. Dans ces systèmes, vous obtiendriez un débit denviron cent mille lignes par seconde, mais pas des centaines de millions de lignes par seconde.

Il est également intéressant de noter que ClickHouse est un système de gestion de base de données, pas une seule base de données. ClickHouse permet de créer des tables et des bases de données en cours dexécution, de charger des données et dexécuter des requêtes sans reconfigurer et redémarrer le serveur.

Compression De Données

Certains SGBD orientés colonne (InfiniDB CE et MonetDB) nutilisent pas la compression de données. Cependant, la compression des données joue un rôle clé dans la réalisation dexcellentes performances.

Stockage De données Sur Disque

Garder les données physiquement triées par clé primaire permet dextraire des données pour ses valeurs spécifiques ou plages de valeurs avec une faible latence, moins de quelques dizaines de millisecondes. Certains SGBD orientés colonne (tels que SAP HANA et Google PowerDrill) ne peuvent fonctionner quen RAM. Cette approche encourage lallocation dun budget matériel plus important que ce qui est nécessaire pour lanalyse en temps réel. ClickHouse est conçu pour fonctionner sur des disques durs réguliers, ce qui signifie que le coût par Go de stockage de données est faible, mais SSD et RAM supplémentaire sont également entièrement utilisés si disponible.

Traitement parallèle Sur Plusieurs cœurs

Les grandes requêtes sont parallélisées naturellement, en prenant toutes les ressources nécessaires disponibles sur le serveur actuel.

Traitement distribué Sur Plusieurs Serveurs

Presque aucun des SGBD en colonnes mentionnés ci-dessus ne prend en charge le traitement des requêtes distribuées. Dans ClickHouse, les données peuvent résider sur différents fragments. Chaque fragment peut être un groupe de répliques utilisées pour la tolérance aux pannes. Tous les fragments sont utilisés pour exécuter une requête en parallèle, de façon transparente pour lutilisateur.

Prise En Charge SQL

ClickHouse prend en charge un langage de requête déclarative basé sur SQL qui est identique à la norme SQL dans de nombreux cas. Les requêtes prises en charge incluent les clauses GROUP BY, ORDER BY, les sous-requêtes in FROM, IN et JOIN, ainsi que les sous-requêtes scalaires. Les sous-requêtes dépendantes et les fonctions de fenêtre ne sont pas prises en charge.

Moteur Vectoriel

Les données ne sont pas seulement stockées par des colonnes, mais sont traitées par des vecteurs (parties de colonnes), ce qui permet datteindre une efficacité élevée du processeur.

Données En Temps réel Des Mises à Jour

ClickHouse prend en charge les tables avec une clé primaire. Pour effectuer rapidement des requêtes sur la plage de la clé primaire, les données sont triées progressivement à laide de larborescence de fusion. Pour cette raison, les données peuvent être continuellement ajoutées à la table. Pas de verrouillage lorsque de nouvelles données sont ingérés.

Index

Avoir une donnée physiquement triée par clé primaire permet dextraire des données pour ses valeurs spécifiques ou plages de valeurs avec une faible latence, moins de quelques dizaines de millisecondes.

Convient Pour Les requêtes En Ligne

Faible latence signifie que les requêtes peuvent être traitées sans délai et sans essayer de préparer une réponse à lavance, au même moment pendant le chargement de la page de linterface utilisateur. En dautres termes, en ligne.

Prise En Charge Des Calculs Approximatifs

ClickHouse offre différentes façons déchanger la précision pour la performance:

  1. Fonctions dagrégation pour le calcul approximatif du nombre de valeurs distinctes, de médianes et de quantiles.
  2. Lexécution dune requête basée sur une partie (échantillon) de données et obtenir un pseudo résultat. Dans ce cas, proportionnellement, moins de données sont récupérées à partir du disque.
  3. Lexécution dune agrégation pour un nombre limité de clés aléatoires, au lieu de toutes les clés. Sous certaines conditions pour la distribution des clés dans les données, cela fournit un résultat raisonnablement précis tout en utilisant moins de ressources.

Prise En Charge De La réplication Et De lintégrité Des données

ClickHouse utilise la réplication multi-maître asynchrone. Après avoir été écrit dans nimporte quelle réplique disponible, toutes les répliques restantes récupèrent leur copie en arrière-plan. Le système conserve des données identiques sur différentes répliques. La récupération après la plupart des échecs est effectuée automatiquement ou semi-automatiquement dans les cas complexes.

Pour plus dinformations, consultez la section Réplication des données.

Caractéristiques De ClickHouse Qui Peuvent être considérées Comme Des inconvénients

  1. Pas de transactions à part entière.
  2. Manque de capacité à modifier ou supprimer des données déjà insérées avec un taux élevé et une faible latence. Des suppressions et des mises à jour par lots sont disponibles pour nettoyer ou modifier les données, par exemple pour GDPR.
  3. Lindex clairsemé rend ClickHouse pas si approprié pour les requêtes ponctuelles récupérant des lignes simples par leurs clés.

Article Original