ClickHouse/dbms/include/DB/Storages/StorageReplicatedMergeTree.h

364 lines
13 KiB
C
Raw Normal View History

2014-03-21 13:42:14 +00:00
#pragma once
#include <DB/Storages/IStorage.h>
#include <DB/Storages/MergeTree/MergeTreeData.h>
#include <DB/Storages/MergeTree/MergeTreeDataMerger.h>
#include <DB/Storages/MergeTree/MergeTreeDataWriter.h>
#include <DB/Storages/MergeTree/MergeTreeDataSelectExecutor.h>
2014-04-04 10:37:33 +00:00
#include <DB/Storages/MergeTree/ReplicatedMergeTreePartsExchange.h>
2014-03-21 19:17:59 +00:00
#include <zkutil/ZooKeeper.h>
2014-04-04 10:37:33 +00:00
#include <zkutil/LeaderElection.h>
2014-04-03 11:48:28 +00:00
#include <statdaemons/threadpool.hpp>
2014-03-21 13:42:14 +00:00
namespace DB
{
2014-03-21 19:17:59 +00:00
/** Движок, использующий merge-дерево и реплицируемый через ZooKeeper.
*/
2014-03-21 13:42:14 +00:00
class StorageReplicatedMergeTree : public IStorage
{
public:
2014-03-21 19:17:59 +00:00
/** Если !attach, либо создает новую таблицу в ZK, либо добавляет реплику в существующую таблицу.
*/
2014-03-21 13:42:14 +00:00
static StoragePtr create(
const String & zookeeper_path_,
const String & replica_name_,
2014-03-21 19:17:59 +00:00
bool attach,
2014-05-08 07:12:01 +00:00
const String & path_, const String & database_name_, const String & name_,
NamesAndTypesListPtr columns_,
2014-03-22 14:44:44 +00:00
Context & context_,
2014-03-21 13:42:14 +00:00
ASTPtr & primary_expr_ast_,
const String & date_column_name_,
2014-04-08 07:58:53 +00:00
const ASTPtr & sampling_expression_, /// nullptr, если семплирование не поддерживается.
2014-03-21 13:42:14 +00:00
size_t index_granularity_,
MergeTreeData::Mode mode_ = MergeTreeData::Ordinary,
const String & sign_column_ = "",
const MergeTreeSettings & settings_ = MergeTreeSettings());
2014-04-25 13:55:15 +00:00
void shutdown() override;
2014-03-21 13:42:14 +00:00
~StorageReplicatedMergeTree();
2014-03-21 19:17:59 +00:00
std::string getName() const override
2014-03-21 13:42:14 +00:00
{
return "Replicated" + data.getModePrefix() + "MergeTree";
}
2014-04-04 12:47:57 +00:00
std::string getTableName() const override { return table_name; }
2014-03-21 19:17:59 +00:00
bool supportsSampling() const override { return data.supportsSampling(); }
bool supportsFinal() const override { return data.supportsFinal(); }
bool supportsPrewhere() const override { return data.supportsPrewhere(); }
2014-03-21 13:42:14 +00:00
2014-03-21 19:17:59 +00:00
const NamesAndTypesList & getColumnsList() const override { return data.getColumnsList(); }
2014-03-21 13:42:14 +00:00
BlockInputStreams read(
const Names & column_names,
ASTPtr query,
const Settings & settings,
QueryProcessingStage::Enum & processed_stage,
size_t max_block_size = DEFAULT_BLOCK_SIZE,
2014-03-21 19:17:59 +00:00
unsigned threads = 1) override;
2014-03-21 13:42:14 +00:00
2014-03-21 19:17:59 +00:00
BlockOutputStreamPtr write(ASTPtr query) override;
2014-03-21 13:42:14 +00:00
2014-05-08 08:03:03 +00:00
bool optimize() override;
2014-03-21 19:17:59 +00:00
/** Удаляет реплику из ZooKeeper. Если других реплик нет, удаляет всю таблицу из ZooKeeper.
*/
2014-03-21 13:42:14 +00:00
void drop() override;
2014-04-12 15:49:36 +00:00
bool supportsIndexForIn() const override { return true; }
2014-03-21 13:42:14 +00:00
private:
2014-04-02 07:59:43 +00:00
friend class ReplicatedMergeTreeBlockOutputStream;
2014-04-07 15:45:46 +00:00
/// Добавляет кусок в множество future_parts.
struct FuturePartTagger
{
String part;
StorageReplicatedMergeTree & storage;
FuturePartTagger(const String & part_, StorageReplicatedMergeTree & storage_)
: part(part_), storage(storage_)
{
if (!storage.future_parts.insert(part).second)
throw Exception("Tagging already tagged future part " + part + ". This is a bug.", ErrorCodes::LOGICAL_ERROR);
}
~FuturePartTagger()
{
try
{
Poco::ScopedLock<Poco::FastMutex> lock(storage.queue_mutex);
2014-04-07 18:14:39 +00:00
if (!storage.future_parts.erase(part))
2014-04-07 15:45:46 +00:00
throw Exception("Untagging already untagged future part " + part + ". This is a bug.", ErrorCodes::LOGICAL_ERROR);
}
catch (...)
{
tryLogCurrentException(__PRETTY_FUNCTION__);
}
}
};
typedef Poco::SharedPtr<FuturePartTagger> FuturePartTaggerPtr;
2014-03-21 13:42:14 +00:00
struct LogEntry
{
enum Type
{
GET_PART,
MERGE_PARTS,
};
String znode_name;
2014-04-02 10:10:37 +00:00
Type type;
2014-05-26 17:12:46 +00:00
String source_replica; /// Пустая строка значит, что эта запись была добавлена сразу в очередь, а не скопирована из лога.
2014-03-21 13:42:14 +00:00
String new_part_name;
Strings parts_to_merge;
2014-04-02 10:10:37 +00:00
2014-04-07 15:45:46 +00:00
FuturePartTaggerPtr future_part_tagger;
2014-04-04 10:37:33 +00:00
2014-05-26 11:40:22 +00:00
void addResultToVirtualParts(StorageReplicatedMergeTree & storage)
2014-04-04 10:37:33 +00:00
{
2014-05-26 11:40:22 +00:00
if (type == MERGE_PARTS || type == GET_PART)
storage.virtual_parts.add(new_part_name);
2014-04-04 10:37:33 +00:00
}
2014-04-07 15:45:46 +00:00
void tagPartAsFuture(StorageReplicatedMergeTree & storage)
{
if (type == MERGE_PARTS || type == GET_PART)
future_part_tagger = new FuturePartTagger(new_part_name, storage);
}
2014-04-02 10:10:37 +00:00
void writeText(WriteBuffer & out) const;
void readText(ReadBuffer & in);
String toString() const
{
String s;
{
WriteBufferFromString out(s);
writeText(out);
}
return s;
}
static LogEntry parse(const String & s)
{
ReadBufferFromString in(s);
LogEntry res;
res.readText(in);
assertEOF(in);
return res;
}
2014-03-21 13:42:14 +00:00
};
typedef std::list<LogEntry> LogEntries;
2014-04-04 12:47:57 +00:00
typedef std::set<String> StringSet;
typedef std::vector<std::thread> Threads;
2014-03-22 14:44:44 +00:00
Context & context;
2014-05-13 10:10:26 +00:00
zkutil::ZooKeeperPtr zookeeper;
2014-03-22 14:44:44 +00:00
2014-05-13 11:24:04 +00:00
/// Если true, таблица в офлайновом режиме, и в нее нельзя писать.
bool is_read_only = false;
2014-05-26 11:40:22 +00:00
/// Каким будет множество активных кусков после выполнения всей текущей очереди.
ActiveDataPartSet virtual_parts;
2014-04-04 12:47:57 +00:00
2014-04-07 15:45:46 +00:00
/** Очередь того, что нужно сделать на этой реплике, чтобы всех догнать. Берется из ZooKeeper (/replicas/me/queue/).
* В ZK записи в хронологическом порядке. Здесь - не обязательно.
2014-03-21 13:42:14 +00:00
*/
LogEntries queue;
Poco::FastMutex queue_mutex;
2014-04-07 15:45:46 +00:00
/** Куски, которые появятся в результате действий, выполняемых прямо сейчас фоновыми потоками (этих действий нет в очереди).
* Использовать под залоченным queue_mutex.
*/
StringSet future_parts;
2014-04-04 12:47:57 +00:00
String table_name;
2014-03-21 13:42:14 +00:00
String full_path;
String zookeeper_path;
String replica_name;
2014-03-22 14:44:44 +00:00
String replica_path;
/** /replicas/me/is_active.
*/
zkutil::EphemeralNodeHolderPtr replica_is_active_node;
2014-05-13 10:10:26 +00:00
/** Случайные данные, которые мы записали в /replicas/me/is_active.
*/
String active_node_identifier;
2014-03-21 13:42:14 +00:00
2014-03-21 19:17:59 +00:00
/** Является ли эта реплика "ведущей". Ведущая реплика выбирает куски для слияния.
2014-03-21 13:42:14 +00:00
*/
2014-04-14 10:19:33 +00:00
bool is_leader_node = false;
2014-03-21 13:42:14 +00:00
2014-03-22 14:44:44 +00:00
InterserverIOEndpointHolderPtr endpoint_holder;
2014-03-21 13:42:14 +00:00
MergeTreeData data;
MergeTreeDataSelectExecutor reader;
MergeTreeDataWriter writer;
2014-04-04 10:37:33 +00:00
MergeTreeDataMerger merger;
2014-04-03 08:47:59 +00:00
ReplicatedMergeTreePartsFetcher fetcher;
2014-04-04 10:37:33 +00:00
zkutil::LeaderElectionPtr leader_election;
2014-03-21 13:42:14 +00:00
2014-04-24 10:20:02 +00:00
/// Для чтения данных из директории unreplicated.
std::unique_ptr<MergeTreeData> unreplicated_data;
std::unique_ptr<MergeTreeDataSelectExecutor> unreplicated_reader;
2014-05-08 08:03:03 +00:00
std::unique_ptr<MergeTreeDataMerger> unreplicated_merger;
2014-04-24 10:20:02 +00:00
2014-04-03 11:48:28 +00:00
/// Поток, следящий за обновлениями в логах всех реплик и загружающий их в очередь.
std::thread queue_updating_thread;
/// Потоки, выполняющие действия из очереди.
Threads queue_threads;
2014-04-04 10:37:33 +00:00
/// Поток, выбирающий куски для слияния.
std::thread merge_selecting_thread;
2014-04-14 10:56:06 +00:00
/// Поток, удаляющий информацию о старых блоках из ZooKeeper.
std::thread clear_old_blocks_thread;
2014-04-04 10:37:33 +00:00
2014-04-24 08:27:39 +00:00
/// Поток, обрабатывающий переподключение к ZooKeeper при истечении сессии (очень маловероятное событие).
std::thread restarting_thread;
2014-04-14 10:56:06 +00:00
/// Когда последний раз выбрасывали старые логи из ZooKeeper.
2014-04-14 10:19:33 +00:00
time_t clear_old_logs_time = 0;
2014-03-21 13:42:14 +00:00
Logger * log;
2014-04-25 13:55:15 +00:00
/// Нужно ли завершить фоновые потоки (кроме restarting_thread).
2014-04-14 10:19:33 +00:00
volatile bool shutdown_called = false;
2014-04-25 13:55:15 +00:00
/// Нужно ли завершить restarting_thread.
volatile bool permanent_shutdown_called = false;
2014-03-21 13:42:14 +00:00
StorageReplicatedMergeTree(
const String & zookeeper_path_,
const String & replica_name_,
2014-03-21 19:17:59 +00:00
bool attach,
2014-05-08 07:12:01 +00:00
const String & path_, const String & database_name_, const String & name_,
NamesAndTypesListPtr columns_,
2014-03-22 14:44:44 +00:00
Context & context_,
2014-03-21 13:42:14 +00:00
ASTPtr & primary_expr_ast_,
const String & date_column_name_,
const ASTPtr & sampling_expression_,
size_t index_granularity_,
MergeTreeData::Mode mode_ = MergeTreeData::Ordinary,
const String & sign_column_ = "",
const MergeTreeSettings & settings_ = MergeTreeSettings());
2014-03-21 19:17:59 +00:00
/// Инициализация.
2014-03-22 14:44:44 +00:00
/** Создает минимальный набор нод в ZooKeeper.
*/
void createTable();
2014-05-26 18:14:52 +00:00
/** Создает реплику в ZooKeeper и добавляет в очередь все, что нужно, чтобы догнать остальные реплики.
*/
2014-03-22 14:44:44 +00:00
void createReplica();
2014-03-21 19:17:59 +00:00
2014-03-22 14:44:44 +00:00
/** Отметить в ZooKeeper, что эта реплика сейчас активна.
*/
void activateReplica();
2014-03-21 19:17:59 +00:00
2014-03-21 13:42:14 +00:00
/** Проверить, что список столбцов и настройки таблицы совпадают с указанными в ZK (/metadata).
* Если нет - бросить исключение.
*/
void checkTableStructure();
/** Проверить, что множество кусков соответствует тому, что в ZK (/replicas/me/parts/).
* Если каких-то кусков, описанных в ZK нет локально, бросить исключение.
* Если какие-то локальные куски не упоминаются в ZK, удалить их.
* Но если таких слишком много, на всякий случай бросить исключение - скорее всего, это ошибка конфигурации.
*/
void checkParts();
2014-05-26 11:40:22 +00:00
/// Положить все куски из data в virtual_parts.
void initVirtualParts();
2014-04-25 13:55:15 +00:00
/// Запустить или остановить фоновые потоки. Используется для частичной переинициализации при пересоздании сессии в ZooKeeper.
void startup();
void partialShutdown();
2014-05-13 11:24:04 +00:00
/// Запретить запись в таблицу и завершить все фоновые потоки.
void goReadOnly();
2014-04-09 15:52:47 +00:00
2014-04-08 17:45:21 +00:00
/** Проверить, что чексумма куска совпадает с чексуммой того же куска на какой-нибудь другой реплике.
* Если ни у кого нет такого куска, ничего не проверяет.
* Не очень надежно: если две реплики добавляют кусок почти одновременно, ни одной проверки не произойдет.
* Кладет в ops действия, добавляющие данные о куске в ZooKeeper.
*/
void checkPartAndAddToZooKeeper(MergeTreeData::DataPartPtr part, zkutil::Ops & ops);
2014-04-09 15:52:47 +00:00
void clearOldParts();
2014-04-14 10:19:33 +00:00
/// Удалить из ZooKeeper старые записи в логе.
void clearOldLogs();
/// Удалить из ZooKeeper старые хеши блоков. Это делает ведущая реплика.
void clearOldBlocks();
2014-04-04 10:37:33 +00:00
/// Выполнение заданий из очереди.
2014-03-21 19:17:59 +00:00
/** Кладет в queue записи из ZooKeeper (/replicas/me/queue/).
2014-03-21 13:42:14 +00:00
*/
void loadQueue();
/** Копирует новые записи из логов всех реплик в очередь этой реплики.
*/
void pullLogsToQueue();
2014-04-07 15:45:46 +00:00
/** Можно ли сейчас попробовать выполнить это действие. Если нет, нужно оставить его в очереди и попробовать выполнить другое.
* Вызывается под queue_mutex.
2014-03-21 13:42:14 +00:00
*/
2014-04-07 15:45:46 +00:00
bool shouldExecuteLogEntry(const LogEntry & entry);
2014-03-21 13:42:14 +00:00
2014-04-03 11:48:28 +00:00
/** Выполнить действие из очереди. Бросает исключение, если что-то не так.
*/
void executeLogEntry(const LogEntry & entry);
/** В бесконечном цикле обновляет очередь.
2014-03-21 13:42:14 +00:00
*/
2014-04-03 11:48:28 +00:00
void queueUpdatingThread();
2014-03-21 13:42:14 +00:00
2014-04-03 11:48:28 +00:00
/** В бесконечном цикле выполняет действия из очереди.
2014-03-21 13:42:14 +00:00
*/
2014-04-03 11:48:28 +00:00
void queueThread();
2014-03-21 19:17:59 +00:00
2014-04-04 10:37:33 +00:00
/// Выбор кусков для слияния.
2014-04-07 15:45:46 +00:00
void becomeLeader();
/** В бесконечном цикле выбирает куски для слияния и записывает в лог.
2014-04-04 10:37:33 +00:00
*/
void mergeSelectingThread();
2014-04-14 10:56:06 +00:00
/** В бесконечном цикле вызывает clearOldBlocks.
*/
void clearOldBlocksThread();
2014-04-25 13:55:15 +00:00
/** В бесконечном цикле проверяет, не протухла ли сессия в ZooKeeper.
*/
void restartingThread();
2014-04-04 10:37:33 +00:00
/// Вызывается во время выбора кусков для слияния.
bool canMergeParts(const MergeTreeData::DataPartPtr & left, const MergeTreeData::DataPartPtr & right);
2014-03-21 19:17:59 +00:00
/// Обмен кусками.
2014-04-08 17:45:21 +00:00
/** Возвращает пустую строку, если куска ни у кого нет.
2014-04-03 11:48:28 +00:00
*/
2014-04-08 17:45:21 +00:00
String findReplicaHavingPart(const String & part_name, bool active);
2014-04-03 11:48:28 +00:00
/** Скачать указанный кусок с указанной реплики.
*/
void fetchPart(const String & part_name, const String & replica_name);
2014-03-21 13:42:14 +00:00
};
}