2015-07-30 23:41:02 +00:00
|
|
|
|
#pragma once
|
|
|
|
|
|
2015-12-01 22:35:48 +00:00
|
|
|
|
#include <common/threadpool.hpp>
|
2015-07-30 23:41:02 +00:00
|
|
|
|
#include <DB/Interpreters/Aggregator.h>
|
|
|
|
|
#include <DB/DataStreams/IProfilingBlockInputStream.h>
|
2015-12-01 22:35:48 +00:00
|
|
|
|
#include <DB/Common/ConcurrentBoundedQueue.h>
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
namespace DB
|
|
|
|
|
{
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
/** Доагрегирует потоки блоков, держа в оперативной памяти только по одному блоку из каждого потока.
|
|
|
|
|
* Это экономит оперативку в случае использования двухуровневой агрегации, где в каждом потоке будет до 256 блоков с частями результата.
|
|
|
|
|
*
|
|
|
|
|
* Агрегатные функции в блоках не должны быть финализированы, чтобы их состояния можно было объединить.
|
2015-09-07 21:20:28 +00:00
|
|
|
|
*
|
|
|
|
|
* Замечания:
|
|
|
|
|
*
|
|
|
|
|
* На хорошей сети (10Gbit) может работать заметно медленнее, так как чтения блоков с разных
|
|
|
|
|
* удалённых серверов делаются последовательно, при этом, чтение упирается в CPU.
|
|
|
|
|
* Это несложно исправить.
|
|
|
|
|
*
|
|
|
|
|
* Можно держать в памяти не по одному блоку из каждого источника, а по несколько, и распараллелить мердж.
|
|
|
|
|
* При этом будет расходоваться кратно больше оперативки.
|
2015-07-30 23:41:02 +00:00
|
|
|
|
*/
|
|
|
|
|
class MergingAggregatedMemoryEfficientBlockInputStream : public IProfilingBlockInputStream
|
|
|
|
|
{
|
|
|
|
|
public:
|
2015-12-01 22:35:48 +00:00
|
|
|
|
MergingAggregatedMemoryEfficientBlockInputStream(
|
|
|
|
|
BlockInputStreams inputs_, const Aggregator::Params & params, bool final_, size_t threads_);
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
2015-09-07 20:08:02 +00:00
|
|
|
|
String getName() const override { return "MergingAggregatedMemoryEfficient"; }
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
2015-09-08 19:53:16 +00:00
|
|
|
|
String getID() const override;
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
|
|
|
|
protected:
|
2015-09-08 19:53:16 +00:00
|
|
|
|
Block readImpl() override;
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
|
|
|
|
private:
|
|
|
|
|
Aggregator aggregator;
|
|
|
|
|
bool final;
|
2015-12-01 22:35:48 +00:00
|
|
|
|
size_t threads;
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
2015-09-07 07:40:14 +00:00
|
|
|
|
bool started = false;
|
|
|
|
|
bool has_two_level = false;
|
|
|
|
|
bool has_overflows = false;
|
|
|
|
|
int current_bucket_num = -1;
|
|
|
|
|
|
|
|
|
|
struct Input
|
|
|
|
|
{
|
|
|
|
|
BlockInputStreamPtr stream;
|
|
|
|
|
Block block;
|
|
|
|
|
Block overflow_block;
|
|
|
|
|
std::vector<Block> splitted_blocks;
|
|
|
|
|
bool is_exhausted = false;
|
|
|
|
|
|
|
|
|
|
Input(BlockInputStreamPtr & stream_) : stream(stream_) {}
|
|
|
|
|
};
|
2015-07-30 23:41:02 +00:00
|
|
|
|
|
2015-09-07 07:40:14 +00:00
|
|
|
|
std::vector<Input> inputs;
|
2015-12-01 22:35:48 +00:00
|
|
|
|
|
|
|
|
|
using BlocksToMerge = Poco::SharedPtr<BlocksList>;
|
|
|
|
|
|
|
|
|
|
/// Получить блоки, которые можно мерджить. Это позволяет мерджить их параллельно в отдельных потоках.
|
|
|
|
|
BlocksToMerge getNextBlocksToMerge();
|
|
|
|
|
|
|
|
|
|
/// Для параллельного мерджа.
|
|
|
|
|
struct OutputData
|
|
|
|
|
{
|
|
|
|
|
Block block;
|
|
|
|
|
std::exception_ptr exception;
|
|
|
|
|
|
|
|
|
|
OutputData() {}
|
|
|
|
|
OutputData(Block && block_) : block(std::move(block_)) {}
|
|
|
|
|
OutputData(std::exception_ptr && exception_) : exception(std::move(exception_)) {}
|
|
|
|
|
};
|
|
|
|
|
|
|
|
|
|
struct ParallelMergeData
|
|
|
|
|
{
|
|
|
|
|
boost::threadpool::pool pool;
|
|
|
|
|
std::mutex get_next_blocks_mutex;
|
|
|
|
|
ConcurrentBoundedQueue<OutputData> result_queue;
|
|
|
|
|
bool exhausted = false;
|
2015-12-03 02:43:40 +00:00
|
|
|
|
std::atomic<size_t> active_threads;
|
2015-12-01 22:35:48 +00:00
|
|
|
|
|
2015-12-03 02:43:40 +00:00
|
|
|
|
ParallelMergeData(size_t max_threads) : pool(max_threads), result_queue(max_threads), active_threads(max_threads) {}
|
2015-12-01 22:35:48 +00:00
|
|
|
|
};
|
|
|
|
|
|
|
|
|
|
std::unique_ptr<ParallelMergeData> parallel_merge_data;
|
|
|
|
|
|
|
|
|
|
void mergeThread(MemoryTracker * memory_tracker);
|
2015-07-30 23:41:02 +00:00
|
|
|
|
};
|
|
|
|
|
|
|
|
|
|
}
|