9.5 KiB
slug | sidebar_label | sidebar_position | description |
---|---|---|---|
/ja/about-us/distinctive-features | ClickHouseはなぜユニークなのか? | 50 | 他のデータベース管理システムとは異なるClickHouseの特徴を理解する |
ClickHouseの特徴
真の列指向データベース管理システム
真の列指向DBMSでは、値に余分なデータが保存されません。これは、値の長さをその隣に「数値」として保存することを避けるために、固定長の値をサポートする必要があることを意味します。たとえば、10億個のUInt8型の値は圧縮されていないときに約1GBを消費するべきであり、これはCPUの使用に強く影響します。データを圧縮されずに(「ゴミ」がなく)コンパクトに保存することが重要で、というのも、データの解凍速度(CPU使用量)は圧縮されていないデータのボリュームに主に依存するからです。
これは、異なるカラムの値を別々に保存できるが、分析クエリを効果的に処理できないシステム、例えばHBase、BigTable、Cassandra、HyperTableなどとは対照的です。これらのシステムでは、1秒間に約10万行のスループットは得られますが、数億行は得られません。
最終的に、ClickHouseはデータベース管理システムであり、単一のデータベースではありません。実行時にテーブルやデータベースを作成し、データをロードし、サーバーを再構成せずにクエリを実行できます。
データ圧縮
一部の列指向DBMSはデータ圧縮を使用しません。しかし、データ圧縮は優れたパフォーマンスを達成するための重要な要素です。
ディスクスペースとCPU消費の間のトレードオフを考慮した効率的な汎用圧縮コーデックに加え、ClickHouseは特定のデータ型に特化したコーデックを提供し、ClickHouseはタイムシリーズ型のような特定の用途に優れたデータベースと競争し、さらに優れます。
データのディスクストレージ
データを主キーで物理的にソートして保持すると、特定の値または値の範囲に基づいてデータを数十ミリ秒未満の低遅延で抽出することが可能になります。SAP HANAやGoogle PowerDrillのような一部の列指向DBMSはRAMでのみ動作します。このアプローチではリアルタイム分析に必要以上のハードウェア予算を確保する必要があります。
ClickHouseは通常のハードドライブで動作するように設計されており、これはデータストレージあたりのGB単位のコストが低いことを意味しますが、利用可能な場合はSSDや追加のRAMも完全に使用します。
複数コアでの並列処理
大きなクエリは自然に並列化され、現在のサーバーで利用可能なすべてのリソースを利用します。
複数サーバーでの分散処理
上記の列指向DBMSのほとんどに分散クエリ処理のサポートはありません。
ClickHouseでは、データは異なるシャードに存在できます。各シャードは耐障害性のために使用されるレプリカのグループであることができます。すべてのシャードは、ユーザーにとって透明に並列でクエリを実行するために使用されます。
SQLサポート
ClickHouseは、ANSI SQL標準とほぼ互換性のあるSQL言語をサポートしています。
サポートされているクエリには、GROUP BY、ORDER BY、FROMでのサブクエリ、JOIN句、IN演算子、ウィンドウ関数やスカラーサブクエリが含まれます。
相関(依存)サブクエリは執筆時点ではサポートされていませんが、将来的には利用可能になる可能性があります。
ベクター計算エンジン
データはカラムで保存されるだけでなく、ベクター(カラムの一部)によって処理され、高いCPU効率が達成されます。
リアルタイムデータ挿入
ClickHouseは主キーを持つテーブルをサポートしています。主キーの範囲でクエリを迅速に実行するために、データはインクリメンタルにMergeTreeを使用してソートされます。これにより、データを継続的にテーブルに追加することができます。新しいデータが取り込まれた際にロックは取得されません。
主インデックス
データが主キーで物理的にソートされていることで、特定の値または値の範囲に基づいてデータを数十ミリ秒未満の低遅延で抽出することが可能になります。
二次インデックス
他のデータベース管理システムとは異なり、ClickHouseの二次インデックスは特定の行や行範囲を指しません。代わりに、クエリのフィルタリング条件に一致しないすべての行があるデータ部分でそれを読み込まないようにデータベースに事前に知らせるため、データスキッピングインデックスと呼ばれます。
オンラインクエリへの適合性
ほとんどのOLAPデータベース管理システムは、1秒未満のレイテンシーでのオンラインクエリを目指していません。代替システムでは、数十秒から数分間のレポート生成時間が許容されることが多く、時にはさらに時間がかかり、オフラインでレポートを準備することを強いられることがあります(事前に、または「後で来てください」という形で)。
ClickHouseでは、「低遅延」とは、ユーザーインターフェースページが読み込まれるのと同時に、遅延なく、事前に回答を準備しようとせずにクエリを処理できることを意味します。言い換えれば、オンラインで。
近似計算のサポート
ClickHouseは、性能を犠牲にして精度をトレードオフする様々な方法を提供しています:
- 異なる値の数、中央値、および分位数を近似計算するための集計関数。
- データの一部(サンプル)に基づいてクエリを実行し、近似結果を得る。この場合、ディスクから取得されるデータの量は比例して少なくなります。
- すべてのキーではなく、ランダムなキーの制限された数の集計を実行する。データ内のキー分布の条件によっては、少ないリソースで合理的に正確な結果を提供します。
アダプティブジョインアルゴリズム
ClickHouseは、複数のテーブルをJOINする際に、主にハッシュジョインアルゴリズムを選択し、複数の大きなテーブルがある場合にはマージジョインアルゴリズムにフォールバックします。
データレプリケーションとデータ整合性のサポート
ClickHouseは非同期マルチマスターレプリケーションを使用します。利用可能なレプリカに書き込まれた後、残りのすべてのレプリカがバックグラウンドでそのコピーを取得します。システムは異なるレプリカに同一のデータを保持します。ほとんどの障害からの回復は自動または複雑な場合には半自動で行われます。
詳細については、データレプリケーションのセクションを参照してください。
ロールベースのアクセス制御
ClickHouseはSQLクエリを使用したユーザーアカウント管理を実装し、ANSI SQL標準および一般的なリレーショナルデータベース管理システムで見られるロールベースのアクセス制御の構成を可能にします。
欠点と考えられる機能
- 本格的なトランザクションなし。
- 高速かつ低遅延で既に挿入されたデータを修正または削除する能力の欠如。データを整理したり変更したりするためにバッチ削除や更新は利用可能ですが、例えばGDPRに準拠するために別の方法があります。
- スパースなインデックスがClickHouseをポイントクエリでシングル行をキーによって取得するのにあまり効率的ではないようにします。