ClickHouse/docs/fr/introduction/history.md
Ivan Blinkov d91c97d15d
[docs] replace underscores with hyphens (#10606)
* Replace underscores with hyphens

* remove temporary code

* fix style check

* fix collapse
2020-04-30 21:19:18 +03:00

5.5 KiB
Raw Blame History

machine_translated machine_translated_rev toc_priority toc_title
true f865c9653f 7 Histoire

Histoire De ClickHouse

ClickHouse a été développé initialement au pouvoir Yandex.Metrica, la deuxième plus grande plateforme danalyse dans le monde et continue à être le composant de base de ce système. Avec plus de 13 Billions denregistrements dans la base de données et plus de 20 milliards dévénements par jour, ClickHouse permet de générer des rapports personnalisés à la volée directement à partir de données non agrégées. Cet article couvre brièvement les objectifs de ClickHouse dans les premiers stades de son développement.

Yandex.Metrica construit des rapports personnalisés à la volée en fonction des hits et des sessions, avec des segments arbitraires définis par lutilisateur. Faisant souvent requiert la construction dagrégats complexes, tels que le nombre dutilisateurs uniques. De nouvelles données pour la création dun rapport arrivent en temps réel.

En avril 2014, Yandex.Metrica suivait environ 12 milliards dévénements (pages vues et clics) par jour. Tous ces événements doivent être stockés à créer des rapports personnalisés. Une seule requête peut exiger de la numérisation de millions de lignes en quelques centaines de millisecondes, ou des centaines de millions de lignes en quelques secondes.

Utilisation Dans Yandex.Metrica Et Autres Services Yandex

ClickHouse sert à des fins multiples dans Yandex.Metrica. Sa tâche principale est de créer des rapports en mode en ligne en utilisant des données non agrégées. Il utilise un cluster de 374 serveurs qui stockent plus de 20,3 billions de lignes dans la base de données. Le volume de données compressées est denviron 2 PB, sans tenir compte des doublons et des répliques. Le volume de données non compressées (au format TSV) serait denviron 17 PB.

ClickHouse joue également un rôle clé dans les processus suivants:

  • Stockage des données pour la relecture de Session de Yandex.Metrica.
  • Traitement des données intermédiaires.
  • Création de rapports globaux avec Analytics.
  • Exécution de requêtes pour le débogage du Yandex.Moteur Metrica.
  • Analyse des journaux de LAPI et de linterface utilisateur.

De nos jours, il existe plusieurs dizaines dinstallations ClickHouse dans Dautres services et départements Yandex: recherche verticale, E-commerce, Publicité, business analytics, développement mobile, Services personnels et autres.

Données agrégées Et Non agrégées

Il y a une opinion répandue que pour calculer efficacement les statistiques, vous devez agréger les données car cela réduit le volume de données.

Mais lagrégation de données est livré avec beaucoup de limitations:

  • Vous devez disposer dune liste prédéfinie des rapports requis.
  • Lutilisateur ne peut pas créer de rapports personnalisés.
  • Lors de lagrégation sur un grand nombre de clés distinctes, le volume de données est à peine réduit, lagrégation est donc inutile.
  • Pour un grand nombre de rapports, il y a trop de variations dagrégation (explosion combinatoire).
  • Lors de lagrégation de clés avec une cardinalité élevée (telles que les URL), le volume de données nest pas réduit de beaucoup (moins de deux fois).
  • Pour cette raison, le volume de données avec lagrégation peut augmenter au lieu de diminuer.
  • Les utilisateurs ne voient pas tous les rapports que nous générons pour eux. Une grande partie de ces calculs est inutile.
  • Lintégrité logique des données peut être violée pour diverses agrégations.

Si nous nagrégeons rien et travaillons avec des données non agrégées, cela pourrait réduire le volume des calculs.

Cependant, avec lagrégation, une partie importante du travail est déconnectée et achevée relativement calmement. En revanche, les calculs en ligne nécessitent un calcul aussi rapide que possible, car lutilisateur attend le résultat.

Yandex.Metrica dispose dun système spécialisé dagrégation des données appelé Metrage, qui a été utilisé pour la majorité des rapports. À partir de 2009, Yandex.Metrica a également utilisé une base de données OLAP spécialisée pour les données non agrégées appelée OLAPServer, qui était auparavant utilisée pour le générateur de rapports. OLAPServer a bien fonctionné pour les données non agrégées, mais il avait de nombreuses restrictions qui ne lui permettaient pas dêtre utilisé pour tous les rapports comme souhaité. Ceux-ci comprenaient le manque de prise en charge des types de données (uniquement des nombres) et lincapacité de mettre à jour progressivement les données en temps réel (cela ne pouvait être fait quen réécrivant les données quotidiennement). OLAPServer nest pas un SGBD, mais une base de données spécialisée.

Lobjectif initial de ClickHouse était de supprimer les limites DOLAPServer et de résoudre le problème du travail avec des données non agrégées pour tous les rapports, mais au fil des ans, il est devenu un système de gestion de base de données polyvalent adapté à un large éventail de tâches analytiques.

Article Original