2012-02-27 06:28:20 +00:00
|
|
|
|
#pragma once
|
|
|
|
|
|
|
|
|
|
#include <DB/Interpreters/Aggregator.h>
|
2015-12-01 14:09:05 +00:00
|
|
|
|
#include <DB/IO/ReadBufferFromFile.h>
|
|
|
|
|
#include <DB/IO/CompressedReadBuffer.h>
|
2012-02-27 06:28:20 +00:00
|
|
|
|
#include <DB/DataStreams/IProfilingBlockInputStream.h>
|
2014-11-30 18:22:57 +00:00
|
|
|
|
#include <DB/DataStreams/ParallelInputsProcessor.h>
|
2016-10-24 02:02:37 +00:00
|
|
|
|
|
|
|
|
|
|
2012-02-27 06:28:20 +00:00
|
|
|
|
namespace DB
|
|
|
|
|
{
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/** Агрегирует несколько источников параллельно.
|
2014-11-30 18:22:57 +00:00
|
|
|
|
* Производит агрегацию блоков из разных источников независимо в разных потоках, затем объединяет результаты.
|
2014-11-30 06:59:03 +00:00
|
|
|
|
* Если final == false, агрегатные функции не финализируются, то есть, не заменяются на своё значение, а содержат промежуточное состояние вычислений.
|
2012-02-27 06:28:20 +00:00
|
|
|
|
* Это необходимо, чтобы можно было продолжить агрегацию (например, объединяя потоки частично агрегированных данных).
|
|
|
|
|
*/
|
|
|
|
|
class ParallelAggregatingBlockInputStream : public IProfilingBlockInputStream
|
|
|
|
|
{
|
|
|
|
|
public:
|
2017-04-01 07:20:54 +00:00
|
|
|
|
/** Столбцы из key_names и аргументы агрегатных функций, уже должны быть вычислены.
|
|
|
|
|
*/
|
|
|
|
|
ParallelAggregatingBlockInputStream(
|
|
|
|
|
BlockInputStreams inputs, BlockInputStreamPtr additional_input_at_end,
|
|
|
|
|
const Aggregator::Params & params_, bool final_, size_t max_threads_, size_t temporary_data_merge_threads_);
|
2012-02-27 06:28:20 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
String getName() const override { return "ParallelAggregating"; }
|
2012-10-20 02:10:47 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
String getID() const override;
|
2013-05-03 10:20:53 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
void cancel() override;
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
2012-10-20 02:10:47 +00:00
|
|
|
|
protected:
|
2017-04-01 07:20:54 +00:00
|
|
|
|
/// Ничего не делаем, чтобы подготовка к выполнению запроса делалась параллельно, в ParallelInputsProcessor.
|
|
|
|
|
void readPrefix() override
|
|
|
|
|
{
|
|
|
|
|
}
|
2016-05-20 20:43:07 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
Block readImpl() override;
|
2012-02-27 06:28:20 +00:00
|
|
|
|
|
|
|
|
|
private:
|
2017-04-01 07:20:54 +00:00
|
|
|
|
Aggregator::Params params;
|
|
|
|
|
Aggregator aggregator;
|
|
|
|
|
bool final;
|
|
|
|
|
size_t max_threads;
|
|
|
|
|
size_t temporary_data_merge_threads;
|
2012-02-27 06:28:20 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
size_t keys_size;
|
|
|
|
|
size_t aggregates_size;
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
/** Используется, если есть ограничение на максимальное количество строк при агрегации,
|
|
|
|
|
* и если group_by_overflow_mode == ANY.
|
|
|
|
|
* В этом случае, новые ключи не добавляются в набор, а производится агрегация только по
|
|
|
|
|
* ключам, которые уже успели попасть в набор.
|
|
|
|
|
*/
|
|
|
|
|
bool no_more_keys = false;
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
std::atomic<bool> executed {false};
|
2015-12-01 14:09:05 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
/// Для чтения сброшенных во временный файл данных.
|
|
|
|
|
struct TemporaryFileStream
|
|
|
|
|
{
|
|
|
|
|
ReadBufferFromFile file_in;
|
|
|
|
|
CompressedReadBuffer compressed_in;
|
|
|
|
|
BlockInputStreamPtr block_in;
|
2015-12-01 14:09:05 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
TemporaryFileStream(const std::string & path);
|
|
|
|
|
};
|
|
|
|
|
std::vector<std::unique_ptr<TemporaryFileStream>> temporary_inputs;
|
2015-12-01 14:09:05 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
Logger * log = &Logger::get("ParallelAggregatingBlockInputStream");
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
ManyAggregatedDataVariants many_data;
|
|
|
|
|
Exceptions exceptions;
|
2015-03-18 02:48:36 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
struct ThreadData
|
|
|
|
|
{
|
|
|
|
|
size_t src_rows = 0;
|
|
|
|
|
size_t src_bytes = 0;
|
2015-03-18 02:48:36 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
StringRefs key;
|
|
|
|
|
ConstColumnPlainPtrs key_columns;
|
|
|
|
|
Aggregator::AggregateColumns aggregate_columns;
|
|
|
|
|
Sizes key_sizes;
|
2015-03-18 02:48:36 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
ThreadData(size_t keys_size, size_t aggregates_size)
|
|
|
|
|
{
|
|
|
|
|
key.resize(keys_size);
|
|
|
|
|
key_columns.resize(keys_size);
|
|
|
|
|
aggregate_columns.resize(aggregates_size);
|
|
|
|
|
key_sizes.resize(keys_size);
|
|
|
|
|
}
|
|
|
|
|
};
|
2015-03-18 02:48:36 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
std::vector<ThreadData> threads_data;
|
2015-03-18 02:48:36 +00:00
|
|
|
|
|
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
struct Handler
|
|
|
|
|
{
|
|
|
|
|
Handler(ParallelAggregatingBlockInputStream & parent_)
|
|
|
|
|
: parent(parent_) {}
|
2014-05-03 22:57:43 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
void onBlock(Block & block, size_t thread_num);
|
|
|
|
|
void onFinishThread(size_t thread_num);
|
|
|
|
|
void onFinish();
|
|
|
|
|
void onException(std::exception_ptr & exception, size_t thread_num);
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
ParallelAggregatingBlockInputStream & parent;
|
|
|
|
|
};
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
Handler handler;
|
|
|
|
|
ParallelInputsProcessor<Handler> processor;
|
2014-11-30 18:22:57 +00:00
|
|
|
|
|
2015-01-02 03:16:28 +00:00
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
void execute();
|
2015-12-16 04:04:23 +00:00
|
|
|
|
|
|
|
|
|
|
2017-04-01 07:20:54 +00:00
|
|
|
|
/** Отсюда будем доставать готовые блоки после агрегации.
|
|
|
|
|
*/
|
|
|
|
|
std::unique_ptr<IBlockInputStream> impl;
|
2012-02-27 06:28:20 +00:00
|
|
|
|
};
|
|
|
|
|
|
|
|
|
|
}
|