2014-03-21 13:42:14 +00:00
|
|
|
|
#pragma once
|
|
|
|
|
|
2016-08-30 19:27:15 +00:00
|
|
|
|
#include <ext/shared_ptr_helper.hpp>
|
2016-08-26 21:25:05 +00:00
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
#include <DB/Storages/IStorage.h>
|
|
|
|
|
#include <DB/Storages/MergeTree/MergeTreeData.h>
|
|
|
|
|
#include <DB/Storages/MergeTree/MergeTreeDataMerger.h>
|
|
|
|
|
#include <DB/Storages/MergeTree/MergeTreeDataWriter.h>
|
|
|
|
|
#include <DB/Storages/MergeTree/MergeTreeDataSelectExecutor.h>
|
2014-10-15 01:22:06 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ReplicatedMergeTreeLogEntry.h>
|
2016-01-10 04:43:30 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ReplicatedMergeTreeQueue.h>
|
2014-10-15 01:22:06 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ReplicatedMergeTreeCleanupThread.h>
|
2014-10-17 01:05:51 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ReplicatedMergeTreeRestartingThread.h>
|
2016-04-09 03:50:02 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ReplicatedMergeTreePartCheckThread.h>
|
2016-04-09 04:22:11 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ReplicatedMergeTreeAlterThread.h>
|
2014-10-17 01:05:51 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/AbandonableLockInZooKeeper.h>
|
2015-04-16 06:12:35 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/BackgroundProcessingPool.h>
|
2016-01-28 01:00:27 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/DataPartsExchange.h>
|
|
|
|
|
#include <DB/Storages/MergeTree/RemoteDiskSpaceMonitor.h>
|
2016-03-01 17:47:53 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/ShardedPartitionUploader.h>
|
2016-01-28 01:00:27 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/RemoteQueryExecutor.h>
|
2016-03-25 11:48:45 +00:00
|
|
|
|
#include <DB/Storages/MergeTree/RemotePartChecker.h>
|
2014-07-28 09:53:57 +00:00
|
|
|
|
#include <DB/DataTypes/DataTypesNumberFixed.h>
|
2014-03-21 19:17:59 +00:00
|
|
|
|
#include <zkutil/ZooKeeper.h>
|
2014-04-04 10:37:33 +00:00
|
|
|
|
#include <zkutil/LeaderElection.h>
|
2015-03-16 19:24:57 +00:00
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
|
|
|
|
namespace DB
|
|
|
|
|
{
|
|
|
|
|
|
2015-09-20 05:21:43 +00:00
|
|
|
|
/** Движок, использующий merge-дерево (см. MergeTreeData) и реплицируемый через ZooKeeper.
|
|
|
|
|
*
|
|
|
|
|
* ZooKeeper используется для следующих вещей:
|
|
|
|
|
* - структура таблицы (/metadata, /columns)
|
|
|
|
|
* - лог действий с данными (/log/log-..., /replicas/replica_name/queue/queue-...);
|
|
|
|
|
* - список реплик (/replicas), признак активности реплики (/replicas/replica_name/is_active), адреса реплик (/replicas/replica_name/host);
|
|
|
|
|
* - выбор реплики-лидера (/leader_election) - это та реплика, которая назначает мерджи;
|
|
|
|
|
* - набор кусков данных на каждой реплике (/replicas/replica_name/parts);
|
|
|
|
|
* - список последних N блоков данных с чексуммами, для дедупликации (/blocks);
|
|
|
|
|
* - список инкрементальных номеров блоков (/block_numbers), которые мы сейчас собираемся вставить,
|
|
|
|
|
* или которые были неиспользованы (/nonincremental_block_numbers)
|
|
|
|
|
* для обеспечения линейного порядка вставки данных и мерджа данных только по интервалам в этой последовательности;
|
|
|
|
|
* - координация записей с кворумом (/quorum).
|
2014-03-21 19:17:59 +00:00
|
|
|
|
*/
|
2015-09-20 05:21:43 +00:00
|
|
|
|
|
|
|
|
|
/** У реплицируемых таблиц есть общий лог (/log/log-...).
|
|
|
|
|
* Лог - последовательность записей (LogEntry) о том, что делать.
|
|
|
|
|
* Каждая запись - это одно из:
|
|
|
|
|
* - обычная вставка данных (GET),
|
|
|
|
|
* - мердж (MERGE),
|
|
|
|
|
* - чуть менее обычная вставка данных (ATTACH),
|
|
|
|
|
* - удаление партиции (DROP).
|
|
|
|
|
*
|
|
|
|
|
* Каждая реплика копирует (queueUpdatingThread, pullLogsToQueue) записи из лога в свою очередь (/replicas/replica_name/queue/queue-...),
|
|
|
|
|
* и затем выполняет их (queueTask).
|
|
|
|
|
* Не смотря на название "очередь", выполнение может переупорядочиваться, при необходимости (shouldExecuteLogEntry, executeLogEntry).
|
|
|
|
|
* Кроме того, записи в очереди могут генерироваться самостоятельно (не из лога), в следующих случаях:
|
|
|
|
|
* - при создании новой реплики, туда помещаются действия на GET с других реплик (createReplica);
|
|
|
|
|
* - если кусок повреждён (removePartAndEnqueueFetch) или отсутствовал при проверке (при старте - checkParts, во время работы - searchForMissingPart),
|
|
|
|
|
* туда помещаются действия на GET с других реплик;
|
|
|
|
|
*
|
|
|
|
|
* У реплики, на которую был сделан INSERT, в очереди тоже будет запись о GET этих данных.
|
|
|
|
|
* Такая запись считается выполненной, как только обработчик очереди её увидит.
|
|
|
|
|
*
|
|
|
|
|
* У записи в логе есть время создания. Это время генерируется по часам на сервере, который создал запись
|
|
|
|
|
* - того, на которых пришёл соответствующий запрос INSERT или ALTER.
|
|
|
|
|
*
|
|
|
|
|
* Для записей в очереди, которые реплика сделала для себя самостоятельно,
|
|
|
|
|
* в качестве времени будет браться время создания соответствующего куска на какой-либо из реплик.
|
|
|
|
|
*/
|
|
|
|
|
|
2016-08-30 19:27:15 +00:00
|
|
|
|
class StorageReplicatedMergeTree : private ext::shared_ptr_helper<StorageReplicatedMergeTree>, public IStorage
|
2014-03-21 13:42:14 +00:00
|
|
|
|
{
|
2016-08-30 19:27:15 +00:00
|
|
|
|
friend class ext::shared_ptr_helper<StorageReplicatedMergeTree>;
|
2016-08-26 21:25:05 +00:00
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
public:
|
2014-03-21 19:17:59 +00:00
|
|
|
|
/** Если !attach, либо создает новую таблицу в ZK, либо добавляет реплику в существующую таблицу.
|
|
|
|
|
*/
|
2014-03-21 13:42:14 +00:00
|
|
|
|
static StoragePtr create(
|
|
|
|
|
const String & zookeeper_path_,
|
|
|
|
|
const String & replica_name_,
|
2014-03-21 19:17:59 +00:00
|
|
|
|
bool attach,
|
2014-05-08 07:12:01 +00:00
|
|
|
|
const String & path_, const String & database_name_, const String & name_,
|
|
|
|
|
NamesAndTypesListPtr columns_,
|
2014-10-03 15:30:10 +00:00
|
|
|
|
const NamesAndTypesList & materialized_columns_,
|
2014-09-30 03:08:47 +00:00
|
|
|
|
const NamesAndTypesList & alias_columns_,
|
|
|
|
|
const ColumnDefaults & column_defaults_,
|
2014-03-22 14:44:44 +00:00
|
|
|
|
Context & context_,
|
2014-03-21 13:42:14 +00:00
|
|
|
|
ASTPtr & primary_expr_ast_,
|
|
|
|
|
const String & date_column_name_,
|
2014-04-08 07:58:53 +00:00
|
|
|
|
const ASTPtr & sampling_expression_, /// nullptr, если семплирование не поддерживается.
|
2014-03-21 13:42:14 +00:00
|
|
|
|
size_t index_granularity_,
|
2016-04-15 17:13:51 +00:00
|
|
|
|
const MergeTreeData::MergingParams & merging_params_,
|
2016-08-09 21:48:05 +00:00
|
|
|
|
bool has_force_restore_data_flag,
|
2015-07-16 21:03:53 +00:00
|
|
|
|
const MergeTreeSettings & settings_);
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-04-25 13:55:15 +00:00
|
|
|
|
void shutdown() override;
|
2014-10-03 17:55:36 +00:00
|
|
|
|
~StorageReplicatedMergeTree() override;
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-03-21 19:17:59 +00:00
|
|
|
|
std::string getName() const override
|
2014-03-21 13:42:14 +00:00
|
|
|
|
{
|
2016-04-24 09:44:47 +00:00
|
|
|
|
return "Replicated" + data.merging_params.getModeName() + "MergeTree";
|
2014-03-21 13:42:14 +00:00
|
|
|
|
}
|
|
|
|
|
|
2014-04-04 12:47:57 +00:00
|
|
|
|
std::string getTableName() const override { return table_name; }
|
2014-03-21 19:17:59 +00:00
|
|
|
|
bool supportsSampling() const override { return data.supportsSampling(); }
|
|
|
|
|
bool supportsFinal() const override { return data.supportsFinal(); }
|
|
|
|
|
bool supportsPrewhere() const override { return data.supportsPrewhere(); }
|
2015-01-16 15:22:12 +00:00
|
|
|
|
bool supportsParallelReplicas() const override { return true; }
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-10-16 13:37:01 +00:00
|
|
|
|
const NamesAndTypesList & getColumnsListImpl() const override { return data.getColumnsListNonMaterialized(); }
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-10-03 17:55:36 +00:00
|
|
|
|
NameAndTypePair getColumn(const String & column_name) const override
|
2014-07-28 09:53:57 +00:00
|
|
|
|
{
|
2016-05-28 07:48:40 +00:00
|
|
|
|
if (column_name == "_replicated") return NameAndTypePair("_replicated", std::make_shared<DataTypeUInt8>());
|
2014-07-28 09:53:57 +00:00
|
|
|
|
return data.getColumn(column_name);
|
|
|
|
|
}
|
|
|
|
|
|
2014-10-03 17:55:36 +00:00
|
|
|
|
bool hasColumn(const String & column_name) const override
|
2014-07-28 09:53:57 +00:00
|
|
|
|
{
|
|
|
|
|
if (column_name == "_replicated") return true;
|
|
|
|
|
return data.hasColumn(column_name);
|
|
|
|
|
}
|
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
BlockInputStreams read(
|
|
|
|
|
const Names & column_names,
|
|
|
|
|
ASTPtr query,
|
2014-12-17 11:53:17 +00:00
|
|
|
|
const Context & context,
|
2014-03-21 13:42:14 +00:00
|
|
|
|
const Settings & settings,
|
|
|
|
|
QueryProcessingStage::Enum & processed_stage,
|
|
|
|
|
size_t max_block_size = DEFAULT_BLOCK_SIZE,
|
2014-03-21 19:17:59 +00:00
|
|
|
|
unsigned threads = 1) override;
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2015-09-10 20:43:42 +00:00
|
|
|
|
BlockOutputStreamPtr write(ASTPtr query, const Settings & settings) override;
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2016-05-16 18:43:38 +00:00
|
|
|
|
bool optimize(const String & partition, bool final, const Settings & settings) override;
|
2015-04-14 14:58:59 +00:00
|
|
|
|
|
2016-01-28 01:00:27 +00:00
|
|
|
|
void alter(const AlterCommands & params, const String & database_name, const String & table_name, const Context & context) override;
|
2014-07-16 08:58:59 +00:00
|
|
|
|
|
2015-10-02 21:28:19 +00:00
|
|
|
|
void dropPartition(ASTPtr query, const Field & partition, bool detach, bool unreplicated, const Settings & settings) override;
|
|
|
|
|
void attachPartition(ASTPtr query, const Field & partition, bool unreplicated, bool part, const Settings & settings) override;
|
2014-10-18 19:14:09 +00:00
|
|
|
|
void fetchPartition(const Field & partition, const String & from, const Settings & settings) override;
|
2016-06-28 20:50:37 +00:00
|
|
|
|
void freezePartition(const Field & partition, const String & with_name, const Settings & settings) override;
|
|
|
|
|
|
2016-03-01 17:47:53 +00:00
|
|
|
|
void reshardPartitions(ASTPtr query, const String & database_name,
|
|
|
|
|
const Field & first_partition, const Field & last_partition,
|
|
|
|
|
const WeightedZooKeeperPaths & weighted_zookeeper_paths,
|
2016-03-25 11:48:45 +00:00
|
|
|
|
const ASTPtr & sharding_key_expr, bool do_copy, const Field & coordinator,
|
2016-01-28 01:00:27 +00:00
|
|
|
|
const Settings & settings) override;
|
2014-08-07 09:23:55 +00:00
|
|
|
|
|
2014-03-21 19:17:59 +00:00
|
|
|
|
/** Удаляет реплику из ZooKeeper. Если других реплик нет, удаляет всю таблицу из ZooKeeper.
|
|
|
|
|
*/
|
2014-03-21 13:42:14 +00:00
|
|
|
|
void drop() override;
|
|
|
|
|
|
2014-10-03 17:55:36 +00:00
|
|
|
|
void rename(const String & new_path_to_db, const String & new_database_name, const String & new_table_name) override;
|
2014-07-28 14:33:30 +00:00
|
|
|
|
|
2014-04-12 15:49:36 +00:00
|
|
|
|
bool supportsIndexForIn() const override { return true; }
|
2014-06-12 19:23:06 +00:00
|
|
|
|
|
2014-07-29 15:21:03 +00:00
|
|
|
|
MergeTreeData & getData() { return data; }
|
|
|
|
|
MergeTreeData * getUnreplicatedData() { return unreplicated_data.get(); }
|
|
|
|
|
|
2014-10-06 05:18:17 +00:00
|
|
|
|
|
|
|
|
|
/** Для системной таблицы replicas. */
|
|
|
|
|
struct Status
|
|
|
|
|
{
|
|
|
|
|
bool is_leader;
|
|
|
|
|
bool is_readonly;
|
|
|
|
|
bool is_session_expired;
|
2016-01-10 04:43:30 +00:00
|
|
|
|
ReplicatedMergeTreeQueue::Status queue;
|
2014-10-06 05:18:17 +00:00
|
|
|
|
UInt32 parts_to_check;
|
|
|
|
|
String zookeeper_path;
|
|
|
|
|
String replica_name;
|
|
|
|
|
String replica_path;
|
|
|
|
|
Int32 columns_version;
|
|
|
|
|
UInt64 log_max_index;
|
|
|
|
|
UInt64 log_pointer;
|
|
|
|
|
UInt8 total_replicas;
|
|
|
|
|
UInt8 active_replicas;
|
|
|
|
|
};
|
|
|
|
|
|
2014-10-07 18:44:03 +00:00
|
|
|
|
/// Получить статус таблицы. Если with_zk_fields = false - не заполнять поля, требующие запросов в ZK.
|
|
|
|
|
void getStatus(Status & res, bool with_zk_fields = true);
|
2014-10-06 05:18:17 +00:00
|
|
|
|
|
2015-09-24 00:21:02 +00:00
|
|
|
|
using LogEntriesData = std::vector<ReplicatedMergeTreeLogEntryData>;
|
|
|
|
|
void getQueue(LogEntriesData & res, String & replica_name);
|
|
|
|
|
|
2016-01-17 13:00:42 +00:00
|
|
|
|
void getReplicaDelays(time_t & out_absolute_delay, time_t & out_relative_delay);
|
2015-11-05 20:08:18 +00:00
|
|
|
|
|
2016-04-09 03:50:02 +00:00
|
|
|
|
/// Добавить кусок в очередь кусков, чьи данные нужно проверить в фоновом потоке.
|
|
|
|
|
void enqueuePartForCheck(const String & part_name, time_t delay_to_check_seconds = 0)
|
|
|
|
|
{
|
|
|
|
|
part_check_thread.enqueuePart(part_name, delay_to_check_seconds);
|
|
|
|
|
}
|
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
private:
|
2015-06-22 18:23:33 +00:00
|
|
|
|
void dropUnreplicatedPartition(const Field & partition, bool detach, const Settings & settings);
|
2015-04-21 13:10:08 +00:00
|
|
|
|
|
2014-04-02 07:59:43 +00:00
|
|
|
|
friend class ReplicatedMergeTreeBlockOutputStream;
|
2014-10-17 01:05:51 +00:00
|
|
|
|
friend class ReplicatedMergeTreeRestartingThread;
|
2016-04-09 03:50:02 +00:00
|
|
|
|
friend class ReplicatedMergeTreePartCheckThread;
|
2014-10-15 01:22:06 +00:00
|
|
|
|
friend class ReplicatedMergeTreeCleanupThread;
|
2016-04-09 04:22:11 +00:00
|
|
|
|
friend class ReplicatedMergeTreeAlterThread;
|
2016-10-14 09:59:10 +00:00
|
|
|
|
friend class ReplicatedMergeTreeRestartingThread;
|
2015-01-21 03:56:28 +00:00
|
|
|
|
friend struct ReplicatedMergeTreeLogEntry;
|
2016-01-28 01:00:27 +00:00
|
|
|
|
friend class ScopedPartitionMergeLock;
|
|
|
|
|
|
|
|
|
|
friend class ReshardingWorker;
|
2016-03-01 17:47:53 +00:00
|
|
|
|
friend class ShardedPartitionUploader::Client;
|
|
|
|
|
friend class ShardedPartitionUploader::Service;
|
2014-04-02 07:59:43 +00:00
|
|
|
|
|
2016-01-10 04:43:30 +00:00
|
|
|
|
using LogEntry = ReplicatedMergeTreeLogEntry;
|
|
|
|
|
using LogEntryPtr = LogEntry::Ptr;
|
2014-08-05 13:49:44 +00:00
|
|
|
|
|
2014-03-22 14:44:44 +00:00
|
|
|
|
Context & context;
|
2014-12-12 20:50:32 +00:00
|
|
|
|
|
|
|
|
|
zkutil::ZooKeeperPtr current_zookeeper; /// Используйте только с помощью методов ниже.
|
|
|
|
|
std::mutex current_zookeeper_mutex; /// Для пересоздания сессии в фоновом потоке.
|
|
|
|
|
|
2016-01-17 08:12:48 +00:00
|
|
|
|
zkutil::ZooKeeperPtr tryGetZooKeeper();
|
|
|
|
|
zkutil::ZooKeeperPtr getZooKeeper();
|
|
|
|
|
void setZooKeeper(zkutil::ZooKeeperPtr zookeeper);
|
2014-03-22 14:44:44 +00:00
|
|
|
|
|
2014-05-13 11:24:04 +00:00
|
|
|
|
/// Если true, таблица в офлайновом режиме, и в нее нельзя писать.
|
2014-12-11 02:04:13 +00:00
|
|
|
|
bool is_readonly = false;
|
2014-05-13 11:24:04 +00:00
|
|
|
|
|
2014-07-14 15:49:03 +00:00
|
|
|
|
String database_name;
|
2014-04-04 12:47:57 +00:00
|
|
|
|
String table_name;
|
2014-03-21 13:42:14 +00:00
|
|
|
|
String full_path;
|
|
|
|
|
|
|
|
|
|
String zookeeper_path;
|
|
|
|
|
String replica_name;
|
2014-03-22 14:44:44 +00:00
|
|
|
|
String replica_path;
|
|
|
|
|
|
2016-01-10 04:43:30 +00:00
|
|
|
|
/** Очередь того, что нужно сделать на этой реплике, чтобы всех догнать. Берется из ZooKeeper (/replicas/me/queue/).
|
|
|
|
|
* В ZK записи в хронологическом порядке. Здесь - не обязательно.
|
|
|
|
|
*/
|
|
|
|
|
ReplicatedMergeTreeQueue queue;
|
|
|
|
|
|
2014-03-22 14:44:44 +00:00
|
|
|
|
/** /replicas/me/is_active.
|
|
|
|
|
*/
|
|
|
|
|
zkutil::EphemeralNodeHolderPtr replica_is_active_node;
|
2014-06-12 19:23:06 +00:00
|
|
|
|
|
2014-07-10 10:16:50 +00:00
|
|
|
|
/** Версия ноды /columns в ZooKeeper, соответствующая текущим data.columns.
|
|
|
|
|
* Читать и изменять вместе с data.columns - под TableStructureLock.
|
|
|
|
|
*/
|
|
|
|
|
int columns_version = -1;
|
|
|
|
|
|
2014-03-21 19:17:59 +00:00
|
|
|
|
/** Является ли эта реплика "ведущей". Ведущая реплика выбирает куски для слияния.
|
2014-03-21 13:42:14 +00:00
|
|
|
|
*/
|
2014-04-14 10:19:33 +00:00
|
|
|
|
bool is_leader_node = false;
|
2016-10-14 11:47:11 +00:00
|
|
|
|
std::mutex leader_node_mutex;
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-03-22 14:44:44 +00:00
|
|
|
|
InterserverIOEndpointHolderPtr endpoint_holder;
|
2016-01-28 01:00:27 +00:00
|
|
|
|
InterserverIOEndpointHolderPtr disk_space_monitor_endpoint_holder;
|
2016-03-01 17:47:53 +00:00
|
|
|
|
InterserverIOEndpointHolderPtr sharded_partition_uploader_endpoint_holder;
|
2016-01-28 01:00:27 +00:00
|
|
|
|
InterserverIOEndpointHolderPtr remote_query_executor_endpoint_holder;
|
2016-03-25 11:48:45 +00:00
|
|
|
|
InterserverIOEndpointHolderPtr remote_part_checker_endpoint_holder;
|
2014-03-22 14:44:44 +00:00
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
MergeTreeData data;
|
|
|
|
|
MergeTreeDataSelectExecutor reader;
|
|
|
|
|
MergeTreeDataWriter writer;
|
2014-04-04 10:37:33 +00:00
|
|
|
|
MergeTreeDataMerger merger;
|
2016-01-28 01:00:27 +00:00
|
|
|
|
|
|
|
|
|
DataPartsExchange::Fetcher fetcher;
|
2016-01-28 01:00:42 +00:00
|
|
|
|
RemoteDiskSpaceMonitor::Client disk_space_monitor_client;
|
2016-03-01 17:47:53 +00:00
|
|
|
|
ShardedPartitionUploader::Client sharded_partition_uploader_client;
|
2016-01-28 01:00:27 +00:00
|
|
|
|
RemoteQueryExecutor::Client remote_query_executor_client;
|
2016-03-25 11:48:45 +00:00
|
|
|
|
RemotePartChecker::Client remote_part_checker_client;
|
2016-01-28 01:00:27 +00:00
|
|
|
|
|
2014-04-04 10:37:33 +00:00
|
|
|
|
zkutil::LeaderElectionPtr leader_election;
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-04-24 10:20:02 +00:00
|
|
|
|
/// Для чтения данных из директории unreplicated.
|
|
|
|
|
std::unique_ptr<MergeTreeData> unreplicated_data;
|
|
|
|
|
std::unique_ptr<MergeTreeDataSelectExecutor> unreplicated_reader;
|
2014-05-08 08:03:03 +00:00
|
|
|
|
std::unique_ptr<MergeTreeDataMerger> unreplicated_merger;
|
2014-10-06 05:18:17 +00:00
|
|
|
|
std::mutex unreplicated_mutex; /// Для мерджей и удаления нереплицируемых кусков.
|
2014-04-24 10:20:02 +00:00
|
|
|
|
|
2014-12-15 04:06:39 +00:00
|
|
|
|
/// Нужно ли завершить фоновые потоки (кроме restarting_thread).
|
2016-07-31 03:53:16 +00:00
|
|
|
|
std::atomic<bool> shutdown_called {false};
|
2014-12-15 04:06:39 +00:00
|
|
|
|
Poco::Event shutdown_event;
|
|
|
|
|
|
2014-07-21 10:05:56 +00:00
|
|
|
|
/// Потоки:
|
2014-07-15 15:51:27 +00:00
|
|
|
|
|
2014-04-03 11:48:28 +00:00
|
|
|
|
/// Поток, следящий за обновлениями в логах всех реплик и загружающий их в очередь.
|
|
|
|
|
std::thread queue_updating_thread;
|
2016-05-28 17:31:50 +00:00
|
|
|
|
zkutil::EventPtr queue_updating_event = std::make_shared<Poco::Event>();
|
2014-04-03 11:48:28 +00:00
|
|
|
|
|
2014-07-02 12:30:38 +00:00
|
|
|
|
/// Задание, выполняющее действия из очереди.
|
|
|
|
|
BackgroundProcessingPool::TaskHandle queue_task_handle;
|
2014-04-03 11:48:28 +00:00
|
|
|
|
|
2014-04-04 10:37:33 +00:00
|
|
|
|
/// Поток, выбирающий куски для слияния.
|
|
|
|
|
std::thread merge_selecting_thread;
|
2014-07-02 10:16:49 +00:00
|
|
|
|
Poco::Event merge_selecting_event;
|
2014-08-07 09:23:55 +00:00
|
|
|
|
std::mutex merge_selecting_mutex; /// Берется на каждую итерацию выбора кусков для слияния.
|
2014-07-02 10:16:49 +00:00
|
|
|
|
|
2014-07-15 14:37:49 +00:00
|
|
|
|
/// Поток, удаляющий старые куски, записи в логе и блоки.
|
2014-10-15 01:22:06 +00:00
|
|
|
|
std::unique_ptr<ReplicatedMergeTreeCleanupThread> cleanup_thread;
|
2014-04-04 10:37:33 +00:00
|
|
|
|
|
2014-10-17 01:05:51 +00:00
|
|
|
|
/// Поток, обрабатывающий переподключение к ZooKeeper при истечении сессии.
|
|
|
|
|
std::unique_ptr<ReplicatedMergeTreeRestartingThread> restarting_thread;
|
2014-04-24 08:27:39 +00:00
|
|
|
|
|
2014-07-15 15:51:27 +00:00
|
|
|
|
/// Поток, следящий за изменениями списка столбцов в ZooKeeper и обновляющий куски в соответствии с этими изменениями.
|
2016-04-09 04:22:11 +00:00
|
|
|
|
std::unique_ptr<ReplicatedMergeTreeAlterThread> alter_thread;
|
2014-07-10 10:16:50 +00:00
|
|
|
|
|
2016-04-09 03:50:02 +00:00
|
|
|
|
/// Поток, проверяющий данные кусков, а также очередь кусков для проверки.
|
|
|
|
|
ReplicatedMergeTreePartCheckThread part_check_thread;
|
2014-07-16 08:58:59 +00:00
|
|
|
|
|
|
|
|
|
/// Событие, пробуждающее метод alter от ожидания завершения запроса ALTER.
|
2016-05-28 17:31:50 +00:00
|
|
|
|
zkutil::EventPtr alter_query_event = std::make_shared<Poco::Event>();
|
2014-07-16 08:58:59 +00:00
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
Logger * log;
|
|
|
|
|
|
|
|
|
|
StorageReplicatedMergeTree(
|
|
|
|
|
const String & zookeeper_path_,
|
|
|
|
|
const String & replica_name_,
|
2014-03-21 19:17:59 +00:00
|
|
|
|
bool attach,
|
2014-05-08 07:12:01 +00:00
|
|
|
|
const String & path_, const String & database_name_, const String & name_,
|
|
|
|
|
NamesAndTypesListPtr columns_,
|
2014-10-03 15:30:10 +00:00
|
|
|
|
const NamesAndTypesList & materialized_columns_,
|
2014-09-30 03:08:47 +00:00
|
|
|
|
const NamesAndTypesList & alias_columns_,
|
|
|
|
|
const ColumnDefaults & column_defaults_,
|
2014-03-22 14:44:44 +00:00
|
|
|
|
Context & context_,
|
2014-03-21 13:42:14 +00:00
|
|
|
|
ASTPtr & primary_expr_ast_,
|
|
|
|
|
const String & date_column_name_,
|
|
|
|
|
const ASTPtr & sampling_expression_,
|
|
|
|
|
size_t index_granularity_,
|
2016-04-15 17:13:51 +00:00
|
|
|
|
const MergeTreeData::MergingParams & merging_params_,
|
2016-08-09 21:48:05 +00:00
|
|
|
|
bool has_force_restore_data_flag,
|
2015-07-16 21:03:53 +00:00
|
|
|
|
const MergeTreeSettings & settings_);
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-03-21 19:17:59 +00:00
|
|
|
|
/// Инициализация.
|
|
|
|
|
|
2014-03-22 14:44:44 +00:00
|
|
|
|
/** Создает минимальный набор нод в ZooKeeper.
|
|
|
|
|
*/
|
2014-08-11 14:00:24 +00:00
|
|
|
|
void createTableIfNotExists();
|
2014-05-26 18:14:52 +00:00
|
|
|
|
|
|
|
|
|
/** Создает реплику в ZooKeeper и добавляет в очередь все, что нужно, чтобы догнать остальные реплики.
|
|
|
|
|
*/
|
2014-03-22 14:44:44 +00:00
|
|
|
|
void createReplica();
|
2014-03-21 19:17:59 +00:00
|
|
|
|
|
2015-11-09 20:30:54 +00:00
|
|
|
|
/** Создать узлы в ZK, которые должны быть всегда, но которые могли не существовать при работе старых версий сервера.
|
|
|
|
|
*/
|
|
|
|
|
void createNewZooKeeperNodes();
|
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
/** Проверить, что список столбцов и настройки таблицы совпадают с указанными в ZK (/metadata).
|
|
|
|
|
* Если нет - бросить исключение.
|
|
|
|
|
*/
|
2014-08-12 12:41:39 +00:00
|
|
|
|
void checkTableStructure(bool skip_sanity_checks, bool allow_alter);
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
|
|
|
|
/** Проверить, что множество кусков соответствует тому, что в ZK (/replicas/me/parts/).
|
|
|
|
|
* Если каких-то кусков, описанных в ZK нет локально, бросить исключение.
|
|
|
|
|
* Если какие-то локальные куски не упоминаются в ZK, удалить их.
|
|
|
|
|
* Но если таких слишком много, на всякий случай бросить исключение - скорее всего, это ошибка конфигурации.
|
|
|
|
|
*/
|
2014-07-10 08:40:59 +00:00
|
|
|
|
void checkParts(bool skip_sanity_checks);
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-04-08 17:45:21 +00:00
|
|
|
|
/** Проверить, что чексумма куска совпадает с чексуммой того же куска на какой-нибудь другой реплике.
|
|
|
|
|
* Если ни у кого нет такого куска, ничего не проверяет.
|
|
|
|
|
* Не очень надежно: если две реплики добавляют кусок почти одновременно, ни одной проверки не произойдет.
|
|
|
|
|
* Кладет в ops действия, добавляющие данные о куске в ZooKeeper.
|
2014-07-14 15:49:03 +00:00
|
|
|
|
* Вызывать под TableStructureLock.
|
2014-04-08 17:45:21 +00:00
|
|
|
|
*/
|
2014-09-29 20:26:46 +00:00
|
|
|
|
void checkPartAndAddToZooKeeper(const MergeTreeData::DataPartPtr & part, zkutil::Ops & ops, String name_override = "");
|
2014-04-08 17:45:21 +00:00
|
|
|
|
|
2016-01-24 05:00:24 +00:00
|
|
|
|
/** Исходит из допущения, что такого куска ещё нигде нет (Это обеспечено, если номер куска выделен с помощью AbandonableLock).
|
|
|
|
|
* Кладет в ops действия, добавляющие данные о куске в ZooKeeper.
|
|
|
|
|
* Вызывать под TableStructureLock.
|
|
|
|
|
*/
|
|
|
|
|
void addNewPartToZooKeeper(const MergeTreeData::DataPartPtr & part, zkutil::Ops & ops, String name_override = "");
|
|
|
|
|
|
2015-09-20 11:02:59 +00:00
|
|
|
|
/// Кладет в ops действия, удаляющие кусок из ZooKeeper.
|
|
|
|
|
void removePartFromZooKeeper(const String & part_name, zkutil::Ops & ops);
|
|
|
|
|
|
2014-07-22 13:49:52 +00:00
|
|
|
|
/// Убирает кусок из ZooKeeper и добавляет в очередь задание скачать его. Предполагается это делать с битыми кусками.
|
|
|
|
|
void removePartAndEnqueueFetch(const String & part_name);
|
2014-07-21 10:05:56 +00:00
|
|
|
|
|
2014-04-04 10:37:33 +00:00
|
|
|
|
/// Выполнение заданий из очереди.
|
2014-03-21 19:17:59 +00:00
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
/** Копирует новые записи из логов всех реплик в очередь этой реплики.
|
2014-07-15 14:37:49 +00:00
|
|
|
|
* Если next_update_event != nullptr, вызовет это событие, когда в логе появятся новые записи.
|
2014-03-21 13:42:14 +00:00
|
|
|
|
*/
|
2014-07-15 14:37:49 +00:00
|
|
|
|
void pullLogsToQueue(zkutil::EventPtr next_update_event = nullptr);
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-04-03 11:48:28 +00:00
|
|
|
|
/** Выполнить действие из очереди. Бросает исключение, если что-то не так.
|
2014-07-18 15:41:04 +00:00
|
|
|
|
* Возвращает, получилось ли выполнить. Если не получилось, запись нужно положить в конец очереди.
|
2014-04-03 11:48:28 +00:00
|
|
|
|
*/
|
2014-07-18 15:41:04 +00:00
|
|
|
|
bool executeLogEntry(const LogEntry & entry, BackgroundProcessingPool::Context & pool_context);
|
2014-04-03 11:48:28 +00:00
|
|
|
|
|
2014-08-08 08:28:13 +00:00
|
|
|
|
void executeDropRange(const LogEntry & entry);
|
|
|
|
|
bool executeAttachPart(const LogEntry & entry); /// Возвращает false, если куска нет, и его нужно забрать с другой реплики.
|
2014-08-05 13:49:44 +00:00
|
|
|
|
|
2014-07-21 10:05:56 +00:00
|
|
|
|
/** Обновляет очередь.
|
2014-03-21 13:42:14 +00:00
|
|
|
|
*/
|
2014-04-03 11:48:28 +00:00
|
|
|
|
void queueUpdatingThread();
|
2014-03-21 13:42:14 +00:00
|
|
|
|
|
2014-07-02 12:30:38 +00:00
|
|
|
|
/** Выполняет действия из очереди.
|
2014-03-21 13:42:14 +00:00
|
|
|
|
*/
|
2014-07-02 12:30:38 +00:00
|
|
|
|
bool queueTask(BackgroundProcessingPool::Context & context);
|
2014-03-21 19:17:59 +00:00
|
|
|
|
|
2014-04-04 10:37:33 +00:00
|
|
|
|
/// Выбор кусков для слияния.
|
|
|
|
|
|
2014-04-07 15:45:46 +00:00
|
|
|
|
void becomeLeader();
|
|
|
|
|
|
2014-07-21 10:05:56 +00:00
|
|
|
|
/** Выбирает куски для слияния и записывает в лог.
|
2014-04-04 10:37:33 +00:00
|
|
|
|
*/
|
|
|
|
|
void mergeSelectingThread();
|
|
|
|
|
|
2016-05-16 18:43:38 +00:00
|
|
|
|
using MemoizedPartsThatCouldBeMerged = std::set<std::pair<std::string, std::string>>;
|
|
|
|
|
/// Можно ли мерджить куски в указанном диапазоне? memo - необязательный параметр.
|
|
|
|
|
bool canMergeParts(
|
|
|
|
|
const MergeTreeData::DataPartPtr & left,
|
|
|
|
|
const MergeTreeData::DataPartPtr & right,
|
|
|
|
|
MemoizedPartsThatCouldBeMerged * memo);
|
|
|
|
|
|
|
|
|
|
/** Записать выбранные куски для слияния в лог,
|
|
|
|
|
* Вызывать при заблокированном merge_selecting_mutex.
|
|
|
|
|
* Возвращает false, если какого-то куска нет в ZK.
|
|
|
|
|
*/
|
|
|
|
|
bool createLogEntryToMergeParts(
|
|
|
|
|
const MergeTreeData::DataPartsVector & parts,
|
|
|
|
|
const String & merged_name,
|
|
|
|
|
ReplicatedMergeTreeLogEntryData * out_log_entry = nullptr);
|
|
|
|
|
|
2014-03-21 19:17:59 +00:00
|
|
|
|
/// Обмен кусками.
|
|
|
|
|
|
2014-04-08 17:45:21 +00:00
|
|
|
|
/** Возвращает пустую строку, если куска ни у кого нет.
|
2014-04-03 11:48:28 +00:00
|
|
|
|
*/
|
2014-04-08 17:45:21 +00:00
|
|
|
|
String findReplicaHavingPart(const String & part_name, bool active);
|
2014-04-03 11:48:28 +00:00
|
|
|
|
|
2016-08-09 20:39:28 +00:00
|
|
|
|
/** Find replica having specified part or any part that covers it.
|
|
|
|
|
* If active = true, consider only active replicas.
|
|
|
|
|
* If found, returns replica name and set 'out_covering_part_name' to name of found largest covering part.
|
|
|
|
|
* If not found, returns empty string.
|
|
|
|
|
*/
|
|
|
|
|
String findReplicaHavingCoveringPart(const String & part_name, bool active, String & out_covering_part_name);
|
|
|
|
|
|
2014-04-03 11:48:28 +00:00
|
|
|
|
/** Скачать указанный кусок с указанной реплики.
|
2014-10-13 17:28:59 +00:00
|
|
|
|
* Если to_detached, то кусок помещается в директорию detached.
|
2015-09-11 02:13:59 +00:00
|
|
|
|
* Если quorum != 0, то обновляется узел для отслеживания кворума.
|
2016-08-10 07:20:21 +00:00
|
|
|
|
* Returns false if part is already fetching right now.
|
2014-04-03 11:48:28 +00:00
|
|
|
|
*/
|
2016-08-10 07:20:21 +00:00
|
|
|
|
bool fetchPart(const String & part_name, const String & replica_path, bool to_detached, size_t quorum);
|
|
|
|
|
|
|
|
|
|
std::unordered_set<String> currently_fetching_parts;
|
|
|
|
|
std::mutex currently_fetching_parts_mutex;
|
2014-08-07 09:23:55 +00:00
|
|
|
|
|
2015-09-20 11:02:59 +00:00
|
|
|
|
/** При отслеживаемом кворуме - добавить реплику в кворум для куска.
|
|
|
|
|
*/
|
|
|
|
|
void updateQuorum(const String & part_name);
|
|
|
|
|
|
2014-08-07 09:23:55 +00:00
|
|
|
|
AbandonableLockInZooKeeper allocateBlockNumber(const String & month_name);
|
|
|
|
|
|
|
|
|
|
/** Дождаться, пока все реплики, включая эту, выполнят указанное действие из лога.
|
|
|
|
|
* Если одновременно с этим добавляются реплики, может не дождаться добавленную реплику.
|
|
|
|
|
*/
|
2016-05-16 18:43:38 +00:00
|
|
|
|
void waitForAllReplicasToProcessLogEntry(const ReplicatedMergeTreeLogEntryData & entry);
|
2014-10-15 01:22:06 +00:00
|
|
|
|
|
2014-10-18 17:37:55 +00:00
|
|
|
|
/** Дождаться, пока указанная реплика выполнит указанное действие из лога.
|
|
|
|
|
*/
|
2016-05-16 18:43:38 +00:00
|
|
|
|
void waitForReplicaToProcessLogEntry(const String & replica_name, const ReplicatedMergeTreeLogEntryData & entry);
|
2016-01-17 08:12:48 +00:00
|
|
|
|
|
|
|
|
|
/// Кинуть исключение, если таблица readonly.
|
|
|
|
|
void assertNotReadonly() const;
|
2016-01-21 16:30:05 +00:00
|
|
|
|
|
2016-01-28 01:00:27 +00:00
|
|
|
|
/** Получить блокировку, которая защищает заданную партицию от задачи слияния.
|
|
|
|
|
* Блокировка является рекурсивной.
|
|
|
|
|
*/
|
|
|
|
|
std::string acquirePartitionMergeLock(const std::string & partition_name);
|
|
|
|
|
|
|
|
|
|
/** Заявить, что больше не ссылаемся на блокировку соответствующую заданной
|
|
|
|
|
* партиции. Если ссылок больше нет, блокировка уничтожается.
|
|
|
|
|
*/
|
|
|
|
|
void releasePartitionMergeLock(const std::string & partition_name);
|
|
|
|
|
|
2016-01-24 05:00:24 +00:00
|
|
|
|
|
|
|
|
|
/// Проверить наличие узла в ZK. Если он есть - запомнить эту информацию, и затем сразу отвечать true.
|
|
|
|
|
std::unordered_set<std::string> existing_nodes_cache;
|
|
|
|
|
std::mutex existing_nodes_cache_mutex;
|
|
|
|
|
bool existsNodeCached(const std::string & path);
|
2016-01-28 01:00:27 +00:00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/// Перешардирование.
|
|
|
|
|
struct ReplicaSpaceInfo
|
|
|
|
|
{
|
|
|
|
|
long double factor = 0.0;
|
|
|
|
|
size_t available_size = 0;
|
|
|
|
|
};
|
|
|
|
|
|
|
|
|
|
using ReplicaToSpaceInfo = std::map<std::string, ReplicaSpaceInfo>;
|
|
|
|
|
|
|
|
|
|
/** Проверяет, что структуры локальной и реплицируемых таблиц совпадают.
|
|
|
|
|
*/
|
|
|
|
|
void enforceShardsConsistency(const WeightedZooKeeperPaths & weighted_zookeeper_paths);
|
|
|
|
|
|
|
|
|
|
/** Получить информацию о свободном месте на репликах + дополнительную информацию
|
|
|
|
|
* для функции checkSpaceForResharding.
|
|
|
|
|
*/
|
|
|
|
|
ReplicaToSpaceInfo gatherReplicaSpaceInfo(const WeightedZooKeeperPaths & weighted_zookeeper_paths);
|
|
|
|
|
|
|
|
|
|
/** Проверяет, что имеется достаточно свободного места локально и на всех репликах.
|
|
|
|
|
*/
|
|
|
|
|
bool checkSpaceForResharding(const ReplicaToSpaceInfo & replica_to_space_info, size_t partition_size) const;
|
2016-01-21 16:30:05 +00:00
|
|
|
|
};
|
|
|
|
|
|
2016-04-07 21:35:01 +00:00
|
|
|
|
|
2016-04-09 03:50:02 +00:00
|
|
|
|
extern const Int64 RESERVED_BLOCK_NUMBERS;
|
2016-04-07 21:35:01 +00:00
|
|
|
|
extern const int MAX_AGE_OF_LOCAL_PART_THAT_WASNT_ADDED_TO_ZOOKEEPER;
|
|
|
|
|
|
2014-03-21 13:42:14 +00:00
|
|
|
|
}
|