ClickHouse/dbms/src/Interpreters/Aggregator.cpp

#include <iomanip>

#include <statdaemons/Stopwatch.h>

#include <DB/DataTypes/DataTypeAggregateFunction.h>
#include <DB/Columns/ColumnsNumber.h>
#include <DB/AggregateFunctions/AggregateFunctionCount.h>

#include <DB/Interpreters/Aggregator.h>


namespace DB
{


AggregatedDataVariants::~AggregatedDataVariants()
{
	if (aggregator && !aggregator->all_aggregates_has_trivial_destructor)
	{
		try
		{
			aggregator->destroyAllAggregateStates(*this);
		}
		catch (...)
		{
			tryLogCurrentException(__PRETTY_FUNCTION__);
		}
	}
}


void Aggregator::initialize(Block & block)
{
	Poco::ScopedLock<Poco::FastMutex> lock(mutex);

	if (initialized)
		return;

	initialized = true;

	aggregate_functions.resize(aggregates_size);
	for (size_t i = 0; i < aggregates_size; ++i)
		aggregate_functions[i] = &*aggregates[i].function;

	/// Инициализируем размеры состояний и смещения для агрегатных функций.
	offsets_of_aggregate_states.resize(aggregates_size);
	total_size_of_aggregate_states = 0;
	all_aggregates_has_trivial_destructor = true;

	for (size_t i = 0; i < aggregates_size; ++i)
	{
		offsets_of_aggregate_states[i] = total_size_of_aggregate_states;
		total_size_of_aggregate_states += aggregates[i].function->sizeOfData();

		if (!aggregates[i].function->hasTrivialDestructor())
			all_aggregates_has_trivial_destructor = false;
	}

	/** Всё остальное - только если передан непустой block.
	  * (всё остальное не нужно в методе merge блоков с готовыми состояниями агрегатных функций).
	  */
	if (!block)
		return;

	/// Преобразуем имена столбцов в номера, если номера не заданы
	if (keys.empty() && !key_names.empty())
		for (Names::const_iterator it = key_names.begin(); it != key_names.end(); ++it)
			keys.push_back(block.getPositionByName(*it));

	for (AggregateDescriptions::iterator it = aggregates.begin(); it != aggregates.end(); ++it)
		if (it->arguments.empty() && !it->argument_names.empty())
			for (Names::const_iterator jt = it->argument_names.begin(); jt != it->argument_names.end(); ++jt)
				it->arguments.push_back(block.getPositionByName(*jt));

	/// Создадим пример блока, описывающего результат
	if (!sample)
	{
		for (size_t i = 0; i < keys_size; ++i)
		{
			sample.insert(block.getByPosition(keys[i]).cloneEmpty());
			if (sample.getByPosition(i).column->isConst())
				sample.getByPosition(i).column = dynamic_cast<IColumnConst &>(*sample.getByPosition(i).column).convertToFullColumn();
		}

		for (size_t i = 0; i < aggregates_size; ++i)
		{
			ColumnWithNameAndType col;
			col.name = aggregates[i].column_name;

			size_t arguments_size = aggregates[i].arguments.size();
			DataTypes argument_types(arguments_size);
			for (size_t j = 0; j < arguments_size; ++j)
				argument_types[j] = block.getByPosition(aggregates[i].arguments[j]).type;

			col.type = new DataTypeAggregateFunction(aggregates[i].function, argument_types, aggregates[i].parameters);
			col.column = col.type->createColumn();

			sample.insert(col);
		}
	}
}


AggregatedDataVariants::Type Aggregator::chooseAggregationMethod(const ConstColumnPlainPtrs & key_columns, Sizes & key_sizes)
{
	bool keys_fit_128_bits = true;
	size_t keys_bytes = 0;
	key_sizes.resize(keys_size);
	for (size_t j = 0; j < keys_size; ++j)
	{
		if (!key_columns[j]->isFixed())
		{
			keys_fit_128_bits = false;
			break;
		}
		key_sizes[j] = key_columns[j]->sizeOfField();
		keys_bytes += key_sizes[j];
	}
	if (keys_bytes > 16)
		keys_fit_128_bits = false;

	/// Если ключей нет
	if (keys_size == 0)
		return AggregatedDataVariants::Type::without_key;

	/// Если есть один числовой ключ, который помещается в 64 бита
	if (keys_size == 1 && key_columns[0]->isNumeric())
	{
		size_t size_of_field = key_columns[0]->sizeOfField();
		if (size_of_field == 1)
			return AggregatedDataVariants::Type::key8;
		if (size_of_field == 2)
			return AggregatedDataVariants::Type::key16;
		if (size_of_field == 4)
			return AggregatedDataVariants::Type::key32;
		if (size_of_field == 8)
			return AggregatedDataVariants::Type::key64;
		throw Exception("Logical error: numeric column has sizeOfField not in 1, 2, 4, 8.", ErrorCodes::LOGICAL_ERROR);
	}

	/// Если ключи помещаются в 128 бит, будем использовать хэш-таблицу по упакованным в 128-бит ключам
	if (keys_fit_128_bits)
		return AggregatedDataVariants::Type::keys128;

	/// Если есть один строковый ключ, то используем хэш-таблицу с ним
	if (keys_size == 1 && typeid_cast<const ColumnString *>(key_columns[0]))
		return AggregatedDataVariants::Type::key_string;

	if (keys_size == 1 && typeid_cast<const ColumnFixedString *>(key_columns[0]))
		return AggregatedDataVariants::Type::key_fixed_string;

	/// Иначе будем агрегировать по хэшу от ключей.
	return AggregatedDataVariants::Type::hashed;
}


void Aggregator::createAggregateStates(AggregateDataPtr & aggregate_data) const
{
	for (size_t j = 0; j < aggregates_size; ++j)
	{
		try
		{
			/** Может возникнуть исключение при нехватке памяти.
			  * Для того, чтобы потом всё правильно уничтожилось, "откатываем" часть созданных состояний.
			  * Код не очень удобный.
			  */
			aggregate_functions[j]->create(aggregate_data + offsets_of_aggregate_states[j]);
		}
		catch (...)
		{
			for (size_t rollback_j = 0; rollback_j < j; ++rollback_j)
				aggregate_functions[rollback_j]->destroy(aggregate_data + offsets_of_aggregate_states[rollback_j]);

			aggregate_data = nullptr;
			throw;
		}
	}
}


/** Интересно - если убрать noinline, то gcc зачем-то инлайнит эту функцию, и производительность уменьшается (~10%).
  * (Возможно из-за того, что после инлайна этой функции, перестают инлайниться более внутренние функции.)
  * Инлайнить не имеет смысла, так как внутренний цикл находится целиком внутри этой функции.
  */
template <typename Method>
void NO_INLINE Aggregator::executeImpl(
	Method & method,
	Arena * aggregates_pool,
	size_t rows,
	ConstColumnPlainPtrs & key_columns,
	AggregateColumns & aggregate_columns,
	const Sizes & key_sizes,
	StringRefs & keys,
	bool no_more_keys,
	AggregateDataPtr overflow_row) const
{
	method.init(key_columns);

	if (!no_more_keys)
		executeImplCase<false>(method, aggregates_pool, rows, key_columns, aggregate_columns, key_sizes, keys, overflow_row);
	else
		executeImplCase<true>(method, aggregates_pool, rows, key_columns, aggregate_columns, key_sizes, keys, overflow_row);
}


template <bool no_more_keys, typename Method>
void NO_INLINE Aggregator::executeImplCase(
	Method & method,
	Arena * aggregates_pool,
	size_t rows,
	ConstColumnPlainPtrs & key_columns,
	AggregateColumns & aggregate_columns,
	const Sizes & key_sizes,
	StringRefs & keys,
	AggregateDataPtr overflow_row) const
{
	/// Для всех строчек.
	for (size_t i = 0; i < rows; ++i)
	{
		typename Method::iterator it;
		bool inserted;			/// Вставили новый ключ, или такой ключ уже был?
		bool overflow = false;	/// Новый ключ не поместился в хэш-таблицу из-за no_more_keys.

		/// Получаем ключ для вставки в хэш-таблицу.
		typename Method::Key key = method.getKey(key_columns, keys_size, i, key_sizes, keys);

		if (!no_more_keys)	/// Вставляем.
			method.data.emplace(key, it, inserted);
		else
		{
			/// Будем добавлять только если ключ уже есть.
			inserted = false;
			it = method.data.find(key);
			if (method.data.end() == it)
				overflow = true;
		}

		/// Если ключ не поместился, и данные не надо агрегировать в отдельную строку, то делать нечего.
		if (no_more_keys && overflow && !overflow_row)
			continue;

		/// Если вставили новый ключ - инициализируем состояния агрегатных функций, и возможно, что-нибудь связанное с ключом.
		if (inserted)
		{
			method.onNewKey(it, keys_size, i, keys, *aggregates_pool);

			AggregateDataPtr & aggregate_data = Method::getAggregateData(it->second);
			aggregate_data = aggregates_pool->alloc(total_size_of_aggregate_states);
			createAggregateStates(aggregate_data);
		}

		AggregateDataPtr value = (!no_more_keys || !overflow) ? Method::getAggregateData(it->second) : overflow_row;

		/// Добавляем значения в агрегатные функции.
		for (size_t j = 0; j < aggregates_size; ++j)
			aggregate_functions[j]->add(value + offsets_of_aggregate_states[j], &aggregate_columns[j][0], i);
	}
}


template <typename SrcData, typename DstData>
static void Aggregator::convertImpl(SrcData & src, DstData & dst)
{
	for (const auto & value : src)
		dst.insert(src);
}


template <typename Method>
void NO_INLINE Aggregator::convertToBlockImpl(
	Method & method,
	ColumnPlainPtrs & key_columns,
	AggregateColumnsData & aggregate_columns,
	ColumnPlainPtrs & final_aggregate_columns,
	const Sizes & key_sizes,
	size_t start_row,
	bool final) const
{
	if (!final)
	{
		size_t j = start_row;
		for (typename Method::const_iterator it = method.data.begin(); it != method.data.end(); ++it, ++j)
		{
			method.insertKeyIntoColumns(it, key_columns, keys_size, key_sizes);

			for (size_t i = 0; i < aggregates_size; ++i)
				(*aggregate_columns[i])[j] = Method::getAggregateData(it->second) + offsets_of_aggregate_states[i];
		}
	}
	else
	{
		for (typename Method::const_iterator it = method.data.begin(); it != method.data.end(); ++it)
		{
			method.insertKeyIntoColumns(it, key_columns, keys_size, key_sizes);

			for (size_t i = 0; i < aggregates_size; ++i)
				aggregate_functions[i]->insertResultInto(
					Method::getAggregateData(it->second) + offsets_of_aggregate_states[i],
					*final_aggregate_columns[i]);
		}
	}
}


template <typename Method, typename Table>
void NO_INLINE Aggregator::mergeDataImpl(
	Table & table_dst,
	Table & table_src) const
{
	for (auto it = table_src.begin(); it != table_src.end(); ++it)
	{
		decltype(it) res_it;
		bool inserted;
		table_dst.emplace(it->first, res_it, inserted);

		if (!inserted)
		{
			for (size_t i = 0; i < aggregates_size; ++i)
				aggregate_functions[i]->merge(
					Method::getAggregateData(res_it->second) + offsets_of_aggregate_states[i],
					Method::getAggregateData(it->second) + offsets_of_aggregate_states[i]);

			for (size_t i = 0; i < aggregates_size; ++i)
				aggregate_functions[i]->destroy(
					Method::getAggregateData(it->second) + offsets_of_aggregate_states[i]);

			Method::getAggregateData(it->second) = nullptr;
		}
		else
		{
			res_it->second = it->second;
		}
	}
}


void NO_INLINE Aggregator::mergeWithoutKeyDataImpl(
	ManyAggregatedDataVariants & non_empty_data) const
{
	AggregatedDataVariantsPtr & res = non_empty_data[0];

	/// Все результаты агрегации соединяем с первым.
	for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
	{
		AggregatedDataWithoutKey & res_data = res->without_key;
		AggregatedDataWithoutKey & current_data = non_empty_data[i]->without_key;

		for (size_t i = 0; i < aggregates_size; ++i)
			aggregate_functions[i]->merge(res_data + offsets_of_aggregate_states[i], current_data + offsets_of_aggregate_states[i]);

		for (size_t i = 0; i < aggregates_size; ++i)
			aggregate_functions[i]->destroy(current_data + offsets_of_aggregate_states[i]);

		current_data = nullptr;
	}
}


template <typename Method>
void NO_INLINE Aggregator::mergeSingleLevelDataImpl(
	ManyAggregatedDataVariants & non_empty_data) const
{
	AggregatedDataVariantsPtr & res = non_empty_data[0];

	/// Все результаты агрегации соединяем с первым.
	for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
	{
		AggregatedDataVariants & current = *non_empty_data[i];

		mergeDataImpl<Method>(
			getDataVariant<Method>(*res).data,
			getDataVariant<Method>(current).data);

		/// current не будет уничтожать состояния агрегатных функций в деструкторе
		current.aggregator = nullptr;
	}
}


template <typename Method>
void NO_INLINE Aggregator::mergeTwoLevelDataImpl(
	ManyAggregatedDataVariants & non_empty_data,
	boost::threadpool::pool * thread_pool) const
{
	AggregatedDataVariantsPtr & res = non_empty_data[0];

	/// Слияние распараллеливается по корзинам - первому уровню TwoLevelHashMap.
	auto merge_bucket = [&non_empty_data, &res, this](size_t bucket)
	{
		/// Все результаты агрегации соединяем с первым.
		for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
		{
			AggregatedDataVariants & current = *non_empty_data[i];

			mergeDataImpl<Method>(
				getDataVariant<Method>(*res).data.impls[bucket],
				getDataVariant<Method>(current).data.impls[bucket]);

			/// current не будет уничтожать состояния агрегатных функций в деструкторе
			current.aggregator = nullptr;
		}
	};

	for (size_t bucket = 0; bucket < Method::Data::NUM_BUCKETS; ++bucket)
	{
		if (thread_pool)
			thread_pool->schedule(std::bind(merge_bucket, bucket));
		else
			merge_bucket(bucket);
	}

	if (thread_pool)
		thread_pool->wait();
}


template <typename Method>
void NO_INLINE Aggregator::mergeStreamsImpl(
	Method & method,
	Arena * aggregates_pool,
	size_t start_row,
	size_t rows,
	ConstColumnPlainPtrs & key_columns,
	AggregateColumnsData & aggregate_columns,
	const Sizes & key_sizes,
	StringRefs & keys) const
{
	method.init(key_columns);

	/// Для всех строчек.
	for (size_t i = start_row; i < rows; ++i)
	{
		typename Method::iterator it;
		bool inserted;			/// Вставили новый ключ, или такой ключ уже был?

		/// Получаем ключ для вставки в хэш-таблицу.
		typename Method::Key key = method.getKey(key_columns, keys_size, i, key_sizes, keys);

		method.data.emplace(key, it, inserted);

		if (inserted)
		{
			method.onNewKey(it, keys_size, i, keys, *aggregates_pool);

			AggregateDataPtr & aggregate_data = Method::getAggregateData(it->second);
			aggregate_data = aggregates_pool->alloc(total_size_of_aggregate_states);
			createAggregateStates(aggregate_data);
		}

		/// Мерджим состояния агрегатных функций.
		for (size_t j = 0; j < aggregates_size; ++j)
			aggregate_functions[j]->merge(
				Method::getAggregateData(it->second) + offsets_of_aggregate_states[j],
				(*aggregate_columns[j])[i]);
	}
}


template <typename Method>
void NO_INLINE Aggregator::destroyImpl(
	Method & method) const
{
	for (typename Method::const_iterator it = method.data.begin(); it != method.data.end(); ++it)
	{
		char * data = Method::getAggregateData(it->second);

		/** Если исключение (обычно нехватка памяти, кидается MemoryTracker-ом) возникло
		  *  после вставки ключа в хэш-таблицу, но до создания всех состояний агрегатных функций,
		  *  то data будет равен nullptr-у.
		  */
		if (nullptr == data)
			continue;

		for (size_t i = 0; i < aggregates_size; ++i)
			if (!aggregate_functions[i]->isState())
				aggregate_functions[i]->destroy(data + offsets_of_aggregate_states[i]);
	}
}


bool Aggregator::executeOnBlock(Block & block, AggregatedDataVariants & result,
	ConstColumnPlainPtrs & key_columns, AggregateColumns & aggregate_columns,
	Sizes & key_sizes, StringRefs & key,
	bool & no_more_keys)
{
	initialize(block);

	/// result будет уничтожать состояния агрегатных функций в деструкторе
	result.aggregator = this;

	for (size_t i = 0; i < aggregates_size; ++i)
		aggregate_columns[i].resize(aggregates[i].arguments.size());

	/// Запоминаем столбцы, с которыми будем работать
	for (size_t i = 0; i < keys_size; ++i)
	{
		key_columns[i] = block.getByPosition(keys[i]).column;

		if (key_columns[i]->isConst())
			throw Exception("Constants is not allowed as GROUP BY keys"
				" (but all of them must be eliminated in ExpressionAnalyzer)", ErrorCodes::ILLEGAL_COLUMN);
	}

	for (size_t i = 0; i < aggregates_size; ++i)
	{
		for (size_t j = 0; j < aggregate_columns[i].size(); ++j)
		{
			aggregate_columns[i][j] = block.getByPosition(aggregates[i].arguments[j]).column;

			/** Агрегатные функции рассчитывают, что в них передаются полноценные столбцы.
				* Поэтому, стобцы-константы не разрешены в качестве аргументов агрегатных функций.
				*/
			if (aggregate_columns[i][j]->isConst())
				throw Exception("Constants is not allowed as arguments of aggregate functions", ErrorCodes::ILLEGAL_COLUMN);
		}
	}

	size_t rows = block.rows();

	/// Каким способом выполнять агрегацию?
	if (result.empty())
	{
		result.init(chooseAggregationMethod(key_columns, key_sizes));
		result.keys_size = keys_size;
		result.key_sizes = key_sizes;
		LOG_TRACE(log, "Aggregation method: " << result.getMethodName());
	}

	if (overflow_row && !result.without_key)
	{
		result.without_key = result.aggregates_pool->alloc(total_size_of_aggregate_states);
		createAggregateStates(result.without_key);
	}

	if (result.type == AggregatedDataVariants::Type::without_key)
	{
		AggregatedDataWithoutKey & res = result.without_key;
		if (!res)
		{
			res = result.aggregates_pool->alloc(total_size_of_aggregate_states);
			createAggregateStates(res);
		}

		/// Оптимизация в случае единственной агрегатной функции count.
		AggregateFunctionCount * agg_count = aggregates_size == 1
			? typeid_cast<AggregateFunctionCount *>(aggregate_functions[0])
			: NULL;

		if (agg_count)
			agg_count->addDelta(res, rows);
		else
		{
			for (size_t i = 0; i < rows; ++i)
			{
				/// Добавляем значения
				for (size_t j = 0; j < aggregates_size; ++j)
					aggregate_functions[j]->add(res + offsets_of_aggregate_states[j], &aggregate_columns[j][0], i);
			}
		}
	}

	AggregateDataPtr overflow_row_ptr = overflow_row ? result.without_key : nullptr;

#define M(NAME, IS_TWO_LEVEL) \
	else if (result.type == AggregatedDataVariants::Type::NAME) \
		executeImpl(*result.NAME, result.aggregates_pool, rows, key_columns, aggregate_columns, \
			result.key_sizes, key, no_more_keys, overflow_row_ptr);

	if (false) {}
	APPLY_FOR_AGGREGATED_VARIANT(M)
#undef M
	else if (result.type != AggregatedDataVariants::Type::without_key)
		throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);

	/// Проверка ограничений.
	if (!no_more_keys && max_rows_to_group_by && result.size() > max_rows_to_group_by)
	{
		if (group_by_overflow_mode == OverflowMode::THROW)
			throw Exception("Limit for rows to GROUP BY exceeded: has " + toString(result.size())
				+ " rows, maximum: " + toString(max_rows_to_group_by),
				ErrorCodes::TOO_MUCH_ROWS);
		else if (group_by_overflow_mode == OverflowMode::BREAK)
			return false;
		else if (group_by_overflow_mode == OverflowMode::ANY)
			no_more_keys = true;
		else
			throw Exception("Logical error: unknown overflow mode", ErrorCodes::LOGICAL_ERROR);
	}

	return true;
}


/** Результат хранится в оперативке и должен полностью помещаться в оперативку.
  */
void Aggregator::execute(BlockInputStreamPtr stream, AggregatedDataVariants & result)
{
	StringRefs key(keys_size);
	ConstColumnPlainPtrs key_columns(keys_size);
	AggregateColumns aggregate_columns(aggregates_size);
	Sizes key_sizes;

	/** Используется, если есть ограничение на максимальное количество строк при агрегации,
	  *  и если group_by_overflow_mode == ANY.
	  * В этом случае, новые ключи не добавляются в набор, а производится агрегация только по
	  *  ключам, которые уже успели попасть в набор.
	  */
	bool no_more_keys = false;

	LOG_TRACE(log, "Aggregating");

	Stopwatch watch;

	size_t src_rows = 0;
	size_t src_bytes = 0;

	/// Читаем все данные
	while (Block block = stream->read())
	{
		src_rows += block.rows();
		src_bytes += block.bytes();

		if (!executeOnBlock(block, result,
			key_columns, aggregate_columns, key_sizes, key,
			no_more_keys))
			break;
	}

	double elapsed_seconds = watch.elapsedSeconds();
	size_t rows = result.size();
	LOG_TRACE(log, std::fixed << std::setprecision(3)
		<< "Aggregated. " << src_rows << " to " << rows << " rows (from " << src_bytes / 1048576.0 << " MiB)"
		<< " in " << elapsed_seconds << " sec."
		<< " (" << src_rows / elapsed_seconds << " rows/sec., " << src_bytes / elapsed_seconds / 1048576.0 << " MiB/sec.)");
}


Block Aggregator::convertToBlock(AggregatedDataVariants & data_variants, bool final)
{
	Block res = sample.cloneEmpty();
	size_t rows = data_variants.size();

	LOG_TRACE(log, "Converting aggregated data to block");

	Stopwatch watch;

	/// В какой структуре данных агрегированы данные?
	if (data_variants.empty())
		return Block();

	ColumnPlainPtrs key_columns(keys_size);
	AggregateColumnsData aggregate_columns(aggregates_size);
	ColumnPlainPtrs final_aggregate_columns(aggregates_size);

	for (size_t i = 0; i < keys_size; ++i)
	{
		key_columns[i] = res.getByPosition(i).column;
		key_columns[i]->reserve(rows);
	}

	try
	{
		for (size_t i = 0; i < aggregates_size; ++i)
		{
			if (!final)
			{
				/// Столбец ColumnAggregateFunction захватывает разделяемое владение ареной с состояниями агрегатных функций.
				ColumnAggregateFunction & column_aggregate_func = static_cast<ColumnAggregateFunction &>(*res.getByPosition(i + keys_size).column);

				for (size_t j = 0; j < data_variants.aggregates_pools.size(); ++j)
					column_aggregate_func.addArena(data_variants.aggregates_pools[j]);

				aggregate_columns[i] = &column_aggregate_func.getData();
				aggregate_columns[i]->resize(rows);
			}
			else
			{
				ColumnWithNameAndType & column = res.getByPosition(i + keys_size);
				column.type = aggregate_functions[i]->getReturnType();
				column.column = column.type->createColumn();
				column.column->reserve(rows);

				if (aggregate_functions[i]->isState())
				{
					/// Столбец ColumnAggregateFunction захватывает разделяемое владение ареной с состояниями агрегатных функций.
					ColumnAggregateFunction & column_aggregate_func = static_cast<ColumnAggregateFunction &>(*column.column);

					for (size_t j = 0; j < data_variants.aggregates_pools.size(); ++j)
						column_aggregate_func.addArena(data_variants.aggregates_pools[j]);
				}

				final_aggregate_columns[i] = column.column;
			}
		}

		if (data_variants.type == AggregatedDataVariants::Type::without_key || overflow_row)
		{
			AggregatedDataWithoutKey & data = data_variants.without_key;

			for (size_t i = 0; i < aggregates_size; ++i)
				if (!final)
					(*aggregate_columns[i])[0] = data + offsets_of_aggregate_states[i];
				else
					aggregate_functions[i]->insertResultInto(data + offsets_of_aggregate_states[i], *final_aggregate_columns[i]);

			if (overflow_row)
				for (size_t i = 0; i < keys_size; ++i)
					key_columns[i]->insertDefault();
		}

		size_t start_row = overflow_row ? 1 : 0;

	#define M(NAME, IS_TWO_LEVEL) \
		else if (data_variants.type == AggregatedDataVariants::Type::NAME) \
			convertToBlockImpl(*data_variants.NAME, key_columns, aggregate_columns, \
				final_aggregate_columns, data_variants.key_sizes, start_row, final);

		if (false) {}
		APPLY_FOR_AGGREGATED_VARIANT(M)
	#undef M
		else if (data_variants.type != AggregatedDataVariants::Type::without_key)
			throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
	}
	catch (...)
	{
		/** Работа с состояниями агрегатных функций недостаточно exception-safe.
		  * Если часть столбцов aggregate_columns была resize-на, но значения не были вставлены,
		  *  то эти столбцы будут в некорректном состоянии
		  *  (ColumnAggregateFunction попытаются в деструкторе вызвать деструкторы у элементов, которых нет),
		  *  а также деструкторы будут вызываться у AggregatedDataVariants.
		  * Поэтому, вручную "откатываем" их.
		  */
		for (size_t i = 0; i < aggregates_size; ++i)
			if (aggregate_columns[i])
				aggregate_columns[i]->clear();

		throw;
	}

	if (!final)
	{
		/// data_variants не будет уничтожать состояния агрегатных функций в деструкторе. Теперь состояниями владеют ColumnAggregateFunction.
		data_variants.aggregator = nullptr;
	}

	/// Изменяем размер столбцов-констант в блоке.
	size_t columns = res.columns();
	for (size_t i = 0; i < columns; ++i)
		if (res.getByPosition(i).column->isConst())
			res.getByPosition(i).column = res.getByPosition(i).column->cut(0, rows);

	double elapsed_seconds = watch.elapsedSeconds();
	LOG_TRACE(log, std::fixed << std::setprecision(3)
		<< "Converted aggregated data to block. "
		<< rows << " rows, " << res.bytes() / 1048576.0 << " MiB"
		<< " in " << elapsed_seconds << " sec."
		<< " (" << rows / elapsed_seconds << " rows/sec., " << res.bytes() / elapsed_seconds / 1048576.0 << " MiB/sec.)");

	return res;
}


AggregatedDataVariantsPtr Aggregator::merge(ManyAggregatedDataVariants & data_variants, size_t max_threads)
{
	if (data_variants.empty())
 		throw Exception("Empty data passed to Aggregator::merge().", ErrorCodes::EMPTY_DATA_PASSED);

	LOG_TRACE(log, "Merging aggregated data");

	Stopwatch watch;

	ManyAggregatedDataVariants non_empty_data;
	non_empty_data.reserve(data_variants.size());
	for (auto & data : data_variants)
		if (!data->empty())
			non_empty_data.push_back(data);

	if (non_empty_data.empty())
		return data_variants[0];

	if (non_empty_data.size() == 1)
		return non_empty_data[0];

	AggregatedDataVariantsPtr res = non_empty_data[0];

	size_t rows = res->size();
	for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
	{
		rows += non_empty_data[i]->size();
		AggregatedDataVariants & current = *non_empty_data[i];

		if (res->type != current.type)
			throw Exception("Cannot merge different aggregated data variants.", ErrorCodes::CANNOT_MERGE_DIFFERENT_AGGREGATED_DATA_VARIANTS);

		res->aggregates_pools.insert(res->aggregates_pools.end(), current.aggregates_pools.begin(), current.aggregates_pools.end());
	}

	/// В какой структуре данных агрегированы данные?
	if (res->type == AggregatedDataVariants::Type::without_key || overflow_row)
		mergeWithoutKeyDataImpl(non_empty_data);

	boost::threadpool::pool * thread_pool = nullptr;
	if (max_threads > 1 && rows > 100000	/// TODO Сделать настраиваемый порог.
		&& res->isTwoLevel())
		thread_pool = new boost::threadpool::pool(max_threads);

	/// TODO Упростить.
	if (res->type == AggregatedDataVariants::Type::key8)
		mergeSingleLevelDataImpl<decltype(res->key8)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::key16)
		mergeSingleLevelDataImpl<decltype(res->key16)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::key32)
		mergeSingleLevelDataImpl<decltype(res->key32)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::key64)
		mergeSingleLevelDataImpl<decltype(res->key64)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::key_string)
		mergeSingleLevelDataImpl<decltype(res->key_string)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::key_fixed_string)
		mergeSingleLevelDataImpl<decltype(res->key_fixed_string)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::keys128)
		mergeSingleLevelDataImpl<decltype(res->keys128)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::hashed)
		mergeSingleLevelDataImpl<decltype(res->hashed)::element_type>(non_empty_data);
	else if (res->type == AggregatedDataVariants::Type::key32_two_level)
		mergeTwoLevelDataImpl<decltype(res->key32_two_level)::element_type>(non_empty_data, thread_pool);
	else if (res->type == AggregatedDataVariants::Type::key64_two_level)
		mergeTwoLevelDataImpl<decltype(res->key64_two_level)::element_type>(non_empty_data, thread_pool);
	else if (res->type == AggregatedDataVariants::Type::key_string_two_level)
		mergeTwoLevelDataImpl<decltype(res->key_string_two_level)::element_type>(non_empty_data, thread_pool);
	else if (res->type == AggregatedDataVariants::Type::key_fixed_string_two_level)
		mergeTwoLevelDataImpl<decltype(res->key_fixed_string_two_level)::element_type>(non_empty_data, thread_pool);
	else if (res->type == AggregatedDataVariants::Type::keys128_two_level)
		mergeTwoLevelDataImpl<decltype(res->keys128_two_level)::element_type>(non_empty_data, thread_pool);
	else if (res->type == AggregatedDataVariants::Type::hashed_two_level)
		mergeTwoLevelDataImpl<decltype(res->hashed_two_level)::element_type>(non_empty_data, thread_pool);
	else if (res->type != AggregatedDataVariants::Type::without_key)
		throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);

	double elapsed_seconds = watch.elapsedSeconds();
	size_t res_rows = res->size();

	LOG_TRACE(log, std::fixed << std::setprecision(3)
		<< "Merged aggregated data. "
		<< "From " << rows << " to " << res_rows << " rows (efficiency: " << static_cast<double>(rows) / res_rows << ")"
		<< " in " << elapsed_seconds << " sec."
		<< " (" << rows / elapsed_seconds << " rows/sec.)");

	return res;
}


void Aggregator::merge(BlockInputStreamPtr stream, AggregatedDataVariants & result)
{
	StringRefs key(keys_size);
	ConstColumnPlainPtrs key_columns(keys_size);

	AggregateColumnsData aggregate_columns(aggregates_size);

	Block empty_block;
	initialize(empty_block);

	/// result будет уничтожать состояния агрегатных функций в деструкторе
	result.aggregator = this;

	/// Читаем все данные
	while (Block block = stream->read())
	{
		LOG_TRACE(log, "Merging aggregated block");

		if (!sample)
			for (size_t i = 0; i < keys_size + aggregates_size; ++i)
				sample.insert(block.getByPosition(i).cloneEmpty());

		/// Запоминаем столбцы, с которыми будем работать
		for (size_t i = 0; i < keys_size; ++i)
			key_columns[i] = block.getByPosition(i).column;

		for (size_t i = 0; i < aggregates_size; ++i)
			aggregate_columns[i] = &typeid_cast<ColumnAggregateFunction &>(*block.getByPosition(keys_size + i).column).getData();

		size_t rows = block.rows();

		/// Каким способом выполнять агрегацию?
		Sizes key_sizes;
		AggregatedDataVariants::Type method = chooseAggregationMethod(key_columns, key_sizes);

		if (result.empty())
		{
			result.init(method);
			result.keys_size = keys_size;
			result.key_sizes = key_sizes;
		}

		if (result.type == AggregatedDataVariants::Type::without_key || overflow_row)
		{
			AggregatedDataWithoutKey & res = result.without_key;
			if (!res)
			{
				res = result.aggregates_pool->alloc(total_size_of_aggregate_states);
				createAggregateStates(res);
			}

			/// Добавляем значения
			for (size_t i = 0; i < aggregates_size; ++i)
				aggregate_functions[i]->merge(res + offsets_of_aggregate_states[i], (*aggregate_columns[i])[0]);
		}

		size_t start_row = overflow_row ? 1 : 0;

	#define M(NAME, IS_TWO_LEVEL) \
		else if (result.type == AggregatedDataVariants::Type::NAME) \
			mergeStreamsImpl(*result.NAME, result.aggregates_pool, start_row, rows, key_columns, aggregate_columns, key_sizes, key);

		if (false) {}
		APPLY_FOR_AGGREGATED_VARIANT(M)
	#undef M
		else if (result.type != AggregatedDataVariants::Type::without_key)
			throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);

		LOG_TRACE(log, "Merged aggregated block");
	}
}


void Aggregator::destroyAllAggregateStates(AggregatedDataVariants & result)
{
	if (result.size() == 0)
		return;

	LOG_TRACE(log, "Destroying aggregate states");

	/// В какой структуре данных агрегированы данные?
	if (result.type == AggregatedDataVariants::Type::without_key || overflow_row)
	{
		AggregatedDataWithoutKey & res_data = result.without_key;

		if (nullptr != res_data)
			for (size_t i = 0; i < aggregates_size; ++i)
				if (!aggregate_functions[i]->isState())
					aggregate_functions[i]->destroy(res_data + offsets_of_aggregate_states[i]);
	}

#define M(NAME, IS_TWO_LEVEL) \
	else if (result.type == AggregatedDataVariants::Type::NAME) \
		destroyImpl(*result.NAME);

	if (false) {}
	APPLY_FOR_AGGREGATED_VARIANT(M)
#undef M
	else if (result.type != AggregatedDataVariants::Type::without_key)
		throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
}


String Aggregator::getID() const
{
	std::stringstream res;

	if (keys.empty())
	{
		res << "key_names";
		for (size_t i = 0; i < key_names.size(); ++i)
			res << ", " << key_names[i];
	}
	else
	{
		res << "keys";
		for (size_t i = 0; i < keys.size(); ++i)
			res << ", " << keys[i];
	}

	res << ", aggregates";
	for (size_t i = 0; i < aggregates.size(); ++i)
		res << ", " << aggregates[i].column_name;

	return res.str();
}

}
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+								#include <iomanip>
 								#include <statdaemons/Stopwatch.h>
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-19 03:34:23 +00:00
+								#include <DB/DataTypes/DataTypeAggregateFunction.h>
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-26 07:25:22 +00:00
+								#include <DB/Columns/ColumnsNumber.h>
-												dbms: development [#CONV-2944].



											
										
										
											2012-07-15 23:13:08 +00:00
+								#include <DB/AggregateFunctions/AggregateFunctionCount.h>
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-19 03:34:23 +00:00
 								#include <DB/Interpreters/Aggregator.h>
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
 								namespace DB
 								{
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-26 07:25:22 +00:00
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+								AggregatedDataVariants::~AggregatedDataVariants()
 								{
-												dbms: additional performance improvement [#METR-2944].



											
										
										
											2013-11-03 23:54:12 +00:00
+									if (aggregator && !aggregator->all_aggregates_has_trivial_destructor)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									{
 										try
 										{
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+											aggregator->destroyAllAggregateStates(*this);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										}
 										catch (...)
 										{
 											tryLogCurrentException(__PRETTY_FUNCTION__);
 										}
 									}
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+								}
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
+								void Aggregator::initialize(Block & block)
 								{
 									Poco::ScopedLock<Poco::FastMutex> lock(mutex);
 									if (initialized)
 										return;
 									initialized = true;
-												dbms: probably fixed error in Aggregator [#CONV-2944].



											
										
										
											2013-02-13 19:24:19 +00:00
 									aggregate_functions.resize(aggregates_size);
 									for (size_t i = 0; i < aggregates_size; ++i)
 										aggregate_functions[i] = &*aggregates[i].function;
 									/// Инициализируем размеры состояний и смещения для агрегатных функций.
 									offsets_of_aggregate_states.resize(aggregates_size);
 									total_size_of_aggregate_states = 0;
-												dbms: additional performance improvement [#METR-2944].



											
										
										
											2013-11-03 23:54:12 +00:00
+									all_aggregates_has_trivial_destructor = true;
-												dbms: probably fixed error in Aggregator [#CONV-2944].



											
										
										
											2013-02-13 19:24:19 +00:00
 									for (size_t i = 0; i < aggregates_size; ++i)
 									{
 										offsets_of_aggregate_states[i] = total_size_of_aggregate_states;
 										total_size_of_aggregate_states += aggregates[i].function->sizeOfData();
-												dbms: additional performance improvement [#METR-2944].



											
										
										
											2013-11-03 23:54:12 +00:00
 										if (!aggregates[i].function->hasTrivialDestructor())
 											all_aggregates_has_trivial_destructor = false;
-												dbms: probably fixed error in Aggregator [#CONV-2944].



											
										
										
											2013-02-13 19:24:19 +00:00
+									}
 									/** Всё остальное - только если передан непустой block.
 									  * (всё остальное не нужно в методе merge блоков с готовыми состояниями агрегатных функций).
 									  */
 									if (!block)
 										return;
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
+									/// Преобразуем имена столбцов в номера, если номера не заданы
 									if (keys.empty() && !key_names.empty())
 										for (Names::const_iterator it = key_names.begin(); it != key_names.end(); ++it)
 											keys.push_back(block.getPositionByName(*it));
 									for (AggregateDescriptions::iterator it = aggregates.begin(); it != aggregates.end(); ++it)
 										if (it->arguments.empty() && !it->argument_names.empty())
 											for (Names::const_iterator jt = it->argument_names.begin(); jt != it->argument_names.end(); ++jt)
 												it->arguments.push_back(block.getPositionByName(*jt));
 									/// Создадим пример блока, описывающего результат
 									if (!sample)
 									{
-												dbms: continuing improvement (incomplete) [#CONV-2944].



											
										
										
											2013-02-08 20:34:30 +00:00
+										for (size_t i = 0; i < keys_size; ++i)
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 01:13:15 +00:00
+										{
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
+											sample.insert(block.getByPosition(keys[i]).cloneEmpty());
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 01:13:15 +00:00
+											if (sample.getByPosition(i).column->isConst())
 												sample.getByPosition(i).column = dynamic_cast<IColumnConst &>(*sample.getByPosition(i).column).convertToFullColumn();
 										}
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
-												dbms: continuing improvement (incomplete) [#CONV-2944].



											
										
										
											2013-02-08 20:34:30 +00:00
+										for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
+										{
 											ColumnWithNameAndType col;
 											col.name = aggregates[i].column_name;
-												dbms: probably fixed error with aggregate function serialization (incomplete) [#CONV-2944].



											
										
										
											2012-10-24 18:14:36 +00:00
 											size_t arguments_size = aggregates[i].arguments.size();
 											DataTypes argument_types(arguments_size);
 											for (size_t j = 0; j < arguments_size; ++j)
 												argument_types[j] = block.getByPosition(aggregates[i].arguments[j]).type;
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
-												Fixed parametric aggregate functions in totals. [#METR-10566]

											
										
										
											2014-03-25 18:16:26 +00:00
+											col.type = new DataTypeAggregateFunction(aggregates[i].function, argument_types, aggregates[i].parameters);
-												dbms: development [#METR-10894].

											
										
										
											2014-06-05 23:52:28 +00:00
+											col.column = col.type->createColumn();
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
 											sample.insert(col);
 										}
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									}
-												dbms: development [#CONV-2944].



											
										
										
											2012-03-05 07:58:34 +00:00
+								}
-												dbms: improved performance of aggregation by many fields: lowered number of allocs; more direct memory layout; don't use temporary Fields; lowered memory consumption [#CONV-2944].



											
										
										
											2013-06-30 16:56:00 +00:00
+								AggregatedDataVariants::Type Aggregator::chooseAggregationMethod(const ConstColumnPlainPtrs & key_columns, Sizes & key_sizes)
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+								{
-												dbms: improved performance of aggregation by many fields: lowered number of allocs; more direct memory layout; don't use temporary Fields; lowered memory consumption [#CONV-2944].



											
										
										
											2013-06-30 16:56:00 +00:00
+									bool keys_fit_128_bits = true;
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+									size_t keys_bytes = 0;
 									key_sizes.resize(keys_size);
 									for (size_t j = 0; j < keys_size; ++j)
 									{
-												dbms: improved performance of aggregation by FixedString columns [#CONV-2944].



											
										
										
											2013-07-19 20:12:02 +00:00
+										if (!key_columns[j]->isFixed())
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+										{
 											keys_fit_128_bits = false;
 											break;
 										}
 										key_sizes[j] = key_columns[j]->sizeOfField();
 										keys_bytes += key_sizes[j];
 									}
 									if (keys_bytes > 16)
 										keys_fit_128_bits = false;
 									/// Если ключей нет
 									if (keys_size == 0)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										return AggregatedDataVariants::Type::without_key;
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
-												dbms: improved performance of aggregation by FixedString columns [#CONV-2944].



											
										
										
											2013-07-19 20:12:02 +00:00
+									/// Если есть один числовой ключ, который помещается в 64 бита
-												dbms: Aggregator: improvement [#CONV-2944].



											
										
										
											2013-02-16 20:15:45 +00:00
+									if (keys_size == 1 && key_columns[0]->isNumeric())
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+									{
 										size_t size_of_field = key_columns[0]->sizeOfField();
 										if (size_of_field == 1)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+											return AggregatedDataVariants::Type::key8;
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+										if (size_of_field == 2)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+											return AggregatedDataVariants::Type::key16;
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+										if (size_of_field == 4)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+											return AggregatedDataVariants::Type::key32;
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+										if (size_of_field == 8)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+											return AggregatedDataVariants::Type::key64;
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+										throw Exception("Logical error: numeric column has sizeOfField not in 1, 2, 4, 8.", ErrorCodes::LOGICAL_ERROR);
 									}
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
-												dbms: improved performance of aggregation by FixedString columns [#CONV-2944].



											
										
										
											2013-07-19 20:12:02 +00:00
+									/// Если ключи помещаются в 128 бит, будем использовать хэш-таблицу по упакованным в 128-бит ключам
 									if (keys_fit_128_bits)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										return AggregatedDataVariants::Type::keys128;
-												dbms: improved performance of aggregation by FixedString columns [#CONV-2944].



											
										
										
											2013-07-19 20:12:02 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+									/// Если есть один строковый ключ, то используем хэш-таблицу с ним
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
+									if (keys_size == 1 && typeid_cast<const ColumnString *>(key_columns[0]))
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										return AggregatedDataVariants::Type::key_string;
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
+									if (keys_size == 1 && typeid_cast<const ColumnFixedString *>(key_columns[0]))
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										return AggregatedDataVariants::Type::key_fixed_string;
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
-												dbms: improved performance of aggregation by many fields: lowered number of allocs; more direct memory layout; don't use temporary Fields; lowered memory consumption [#CONV-2944].



											
										
										
											2013-06-30 16:56:00 +00:00
+									/// Иначе будем агрегировать по хэшу от ключей.
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									return AggregatedDataVariants::Type::hashed;
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+								}
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+								void Aggregator::createAggregateStates(AggregateDataPtr & aggregate_data) const
 								{
 									for (size_t j = 0; j < aggregates_size; ++j)
 									{
 										try
 										{
 											/** Может возникнуть исключение при нехватке памяти.
 											  * Для того, чтобы потом всё правильно уничтожилось, "откатываем" часть созданных состояний.
 											  * Код не очень удобный.
 											  */
 											aggregate_functions[j]->create(aggregate_data + offsets_of_aggregate_states[j]);
 										}
 										catch (...)
 										{
 											for (size_t rollback_j = 0; rollback_j < j; ++rollback_j)
-												dbms: Fixed error in prev. revision [#METR-11160].

											
										
										
											2014-05-20 19:30:39 +00:00
+												aggregate_functions[rollback_j]->destroy(aggregate_data + offsets_of_aggregate_states[rollback_j]);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
 											aggregate_data = nullptr;
 											throw;
 										}
 									}
 								}
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+								/** Интересно - если убрать noinline, то gcc зачем-то инлайнит эту функцию, и производительность уменьшается (~10%).
 								  * (Возможно из-за того, что после инлайна этой функции, перестают инлайниться более внутренние функции.)
 								  * Инлайнить не имеет смысла, так как внутренний цикл находится целиком внутри этой функции.
 								  */
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								template <typename Method>
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+								void NO_INLINE Aggregator::executeImpl(
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									Method & method,
 									Arena * aggregates_pool,
 									size_t rows,
 									ConstColumnPlainPtrs & key_columns,
 									AggregateColumns & aggregate_columns,
 									const Sizes & key_sizes,
 									StringRefs & keys,
 									bool no_more_keys,
 									AggregateDataPtr overflow_row) const
 								{
 									method.init(key_columns);
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									if (!no_more_keys)
 										executeImplCase<false>(method, aggregates_pool, rows, key_columns, aggregate_columns, key_sizes, keys, overflow_row);
 									else
 										executeImplCase<true>(method, aggregates_pool, rows, key_columns, aggregate_columns, key_sizes, keys, overflow_row);
 								}
 								template <bool no_more_keys, typename Method>
 								void NO_INLINE Aggregator::executeImplCase(
 									Method & method,
 									Arena * aggregates_pool,
 									size_t rows,
 									ConstColumnPlainPtrs & key_columns,
 									AggregateColumns & aggregate_columns,
 									const Sizes & key_sizes,
 									StringRefs & keys,
 									AggregateDataPtr overflow_row) const
 								{
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									/// Для всех строчек.
 									for (size_t i = 0; i < rows; ++i)
 									{
 										typename Method::iterator it;
 										bool inserted;			/// Вставили новый ключ, или такой ключ уже был?
 										bool overflow = false;	/// Новый ключ не поместился в хэш-таблицу из-за no_more_keys.
 										/// Получаем ключ для вставки в хэш-таблицу.
 										typename Method::Key key = method.getKey(key_columns, keys_size, i, key_sizes, keys);
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										if (!no_more_keys)	/// Вставляем.
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+											method.data.emplace(key, it, inserted);
 										else
 										{
 											/// Будем добавлять только если ключ уже есть.
 											inserted = false;
 											it = method.data.find(key);
 											if (method.data.end() == it)
 												overflow = true;
 										}
 										/// Если ключ не поместился, и данные не надо агрегировать в отдельную строку, то делать нечего.
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										if (no_more_keys && overflow && !overflow_row)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+											continue;
-												some grammar fixes. [#METR-2807]

											
										
										
											2014-08-12 09:35:15 +00:00
+										/// Если вставили новый ключ - инициализируем состояния агрегатных функций, и возможно, что-нибудь связанное с ключом.
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										if (inserted)
 										{
-												dbms: tiny improved performance of aggregation [#METR-2944].

											
										
										
											2014-05-10 01:37:12 +00:00
+											method.onNewKey(it, keys_size, i, keys, *aggregates_pool);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
 											AggregateDataPtr & aggregate_data = Method::getAggregateData(it->second);
 											aggregate_data = aggregates_pool->alloc(total_size_of_aggregate_states);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+											createAggregateStates(aggregate_data);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										AggregateDataPtr value = (!no_more_keys || !overflow) ? Method::getAggregateData(it->second) : overflow_row;
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
 										/// Добавляем значения в агрегатные функции.
 										for (size_t j = 0; j < aggregates_size; ++j)
 											aggregate_functions[j]->add(value + offsets_of_aggregate_states[j], &aggregate_columns[j][0], i);
 									}
 								}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 11:27:58 +00:00
+								template <typename SrcData, typename DstData>
 								static void Aggregator::convertImpl(SrcData & src, DstData & dst)
 								{
 									for (const auto & value : src)
 										dst.insert(src);
 								}
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								template <typename Method>
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+								void NO_INLINE Aggregator::convertToBlockImpl(
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									Method & method,
 									ColumnPlainPtrs & key_columns,
 									AggregateColumnsData & aggregate_columns,
 									ColumnPlainPtrs & final_aggregate_columns,
 									const Sizes & key_sizes,
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+									size_t start_row,
 									bool final) const
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								{
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+									if (!final)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									{
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+										size_t j = start_row;
 										for (typename Method::const_iterator it = method.data.begin(); it != method.data.end(); ++it, ++j)
 										{
 											method.insertKeyIntoColumns(it, key_columns, keys_size, key_sizes);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+											for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: more read write functions for DataTypeAggregateFunction and ColumnAggregateFunction [METR-10894]

											
										
										
											2014-05-22 14:09:10 +00:00
+												(*aggregate_columns[i])[j] = Method::getAggregateData(it->second) + offsets_of_aggregate_states[i];
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+										}
 									}
 									else
 									{
 										for (typename Method::const_iterator it = method.data.begin(); it != method.data.end(); ++it)
 										{
 											method.insertKeyIntoColumns(it, key_columns, keys_size, key_sizes);
 											for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+												aggregate_functions[i]->insertResultInto(
 													Method::getAggregateData(it->second) + offsets_of_aggregate_states[i],
 													*final_aggregate_columns[i]);
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+										}
-												dbms: more read write functions for DataTypeAggregateFunction and ColumnAggregateFunction [METR-10894]

											
										
										
											2014-05-22 14:09:10 +00:00
+									}
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+								template <typename Method, typename Table>
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+								void NO_INLINE Aggregator::mergeDataImpl(
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									Table & table_dst,
 									Table & table_src) const
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								{
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									for (auto it = table_src.begin(); it != table_src.end(); ++it)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									{
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+										decltype(it) res_it;
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										bool inserted;
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+										table_dst.emplace(it->first, res_it, inserted);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
 										if (!inserted)
 										{
 											for (size_t i = 0; i < aggregates_size; ++i)
 												aggregate_functions[i]->merge(
 													Method::getAggregateData(res_it->second) + offsets_of_aggregate_states[i],
 													Method::getAggregateData(it->second) + offsets_of_aggregate_states[i]);
-												dbms: fixed error [#METR-11220].

											
										
										
											2014-05-23 00:35:14 +00:00
+											for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+												aggregate_functions[i]->destroy(
 													Method::getAggregateData(it->second) + offsets_of_aggregate_states[i]);
-												dbms: fixed error [#METR-11220].

											
										
										
											2014-05-23 00:35:14 +00:00
 											Method::getAggregateData(it->second) = nullptr;
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										}
 										else
 										{
 											res_it->second = it->second;
 										}
 									}
 								}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+								void NO_INLINE Aggregator::mergeWithoutKeyDataImpl(
 									ManyAggregatedDataVariants & non_empty_data) const
 								{
 									AggregatedDataVariantsPtr & res = non_empty_data[0];
 									/// Все результаты агрегации соединяем с первым.
 									for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
 									{
 										AggregatedDataWithoutKey & res_data = res->without_key;
 										AggregatedDataWithoutKey & current_data = non_empty_data[i]->without_key;
 										for (size_t i = 0; i < aggregates_size; ++i)
 											aggregate_functions[i]->merge(res_data + offsets_of_aggregate_states[i], current_data + offsets_of_aggregate_states[i]);
 										for (size_t i = 0; i < aggregates_size; ++i)
 											aggregate_functions[i]->destroy(current_data + offsets_of_aggregate_states[i]);
 										current_data = nullptr;
 									}
 								}
 								template <typename Method>
 								void NO_INLINE Aggregator::mergeSingleLevelDataImpl(
 									ManyAggregatedDataVariants & non_empty_data) const
 								{
 									AggregatedDataVariantsPtr & res = non_empty_data[0];
 									/// Все результаты агрегации соединяем с первым.
 									for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
 									{
 										AggregatedDataVariants & current = *non_empty_data[i];
 										mergeDataImpl<Method>(
 											getDataVariant<Method>(*res).data,
 											getDataVariant<Method>(current).data);
 										/// current не будет уничтожать состояния агрегатных функций в деструкторе
 										current.aggregator = nullptr;
 									}
 								}
 								template <typename Method>
 								void NO_INLINE Aggregator::mergeTwoLevelDataImpl(
 									ManyAggregatedDataVariants & non_empty_data,
 									boost::threadpool::pool * thread_pool) const
 								{
 									AggregatedDataVariantsPtr & res = non_empty_data[0];
 									/// Слияние распараллеливается по корзинам - первому уровню TwoLevelHashMap.
 									auto merge_bucket = [&non_empty_data, &res, this](size_t bucket)
 									{
 										/// Все результаты агрегации соединяем с первым.
 										for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
 										{
 											AggregatedDataVariants & current = *non_empty_data[i];
 											mergeDataImpl<Method>(
 												getDataVariant<Method>(*res).data.impls[bucket],
 												getDataVariant<Method>(current).data.impls[bucket]);
 											/// current не будет уничтожать состояния агрегатных функций в деструкторе
 											current.aggregator = nullptr;
 										}
 									};
 									for (size_t bucket = 0; bucket < Method::Data::NUM_BUCKETS; ++bucket)
 									{
 										if (thread_pool)
 											thread_pool->schedule(std::bind(merge_bucket, bucket));
 										else
 											merge_bucket(bucket);
 									}
 									if (thread_pool)
 										thread_pool->wait();
 								}
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								template <typename Method>
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+								void NO_INLINE Aggregator::mergeStreamsImpl(
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									Method & method,
 									Arena * aggregates_pool,
 									size_t start_row,
 									size_t rows,
 									ConstColumnPlainPtrs & key_columns,
 									AggregateColumnsData & aggregate_columns,
 									const Sizes & key_sizes,
 									StringRefs & keys) const
 								{
 									method.init(key_columns);
 									/// Для всех строчек.
 									for (size_t i = start_row; i < rows; ++i)
 									{
 										typename Method::iterator it;
 										bool inserted;			/// Вставили новый ключ, или такой ключ уже был?
 										/// Получаем ключ для вставки в хэш-таблицу.
 										typename Method::Key key = method.getKey(key_columns, keys_size, i, key_sizes, keys);
 										method.data.emplace(key, it, inserted);
 										if (inserted)
 										{
-												dbms: tiny improved performance of aggregation [#METR-2944].

											
										
										
											2014-05-10 01:37:12 +00:00
+											method.onNewKey(it, keys_size, i, keys, *aggregates_pool);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
 											AggregateDataPtr & aggregate_data = Method::getAggregateData(it->second);
 											aggregate_data = aggregates_pool->alloc(total_size_of_aggregate_states);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+											createAggregateStates(aggregate_data);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										}
 										/// Мерджим состояния агрегатных функций.
 										for (size_t j = 0; j < aggregates_size; ++j)
 											aggregate_functions[j]->merge(
 												Method::getAggregateData(it->second) + offsets_of_aggregate_states[j],
 												(*aggregate_columns[j])[i]);
 									}
 								}
 								template <typename Method>
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+								void NO_INLINE Aggregator::destroyImpl(
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									Method & method) const
 								{
 									for (typename Method::const_iterator it = method.data.begin(); it != method.data.end(); ++it)
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+									{
-												dbms: development [#METR-10894].

											
										
										
											2014-06-05 19:52:13 +00:00
+										char * data = Method::getAggregateData(it->second);
 										/** Если исключение (обычно нехватка памяти, кидается MemoryTracker-ом) возникло
 										  *  после вставки ключа в хэш-таблицу, но до создания всех состояний агрегатных функций,
 										  *  то data будет равен nullptr-у.
 										  */
 										if (nullptr == data)
 											continue;
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
-												dbms: development [#METR-10894].

											
										
										
											2014-06-05 19:52:13 +00:00
+										for (size_t i = 0; i < aggregates_size; ++i)
 											if (!aggregate_functions[i]->isState())
-												dbms: fixed wrong code [#METR-10894].

											
										
										
											2014-05-23 00:35:49 +00:00
+												aggregate_functions[i]->destroy(data + offsets_of_aggregate_states[i]);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+									}
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+								}
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+								bool Aggregator::executeOnBlock(Block & block, AggregatedDataVariants & result,
 									ConstColumnPlainPtrs & key_columns, AggregateColumns & aggregate_columns,
 									Sizes & key_sizes, StringRefs & key,
 									bool & no_more_keys)
 								{
 									initialize(block);
 									/// result будет уничтожать состояния агрегатных функций в деструкторе
 									result.aggregator = this;
 									for (size_t i = 0; i < aggregates_size; ++i)
 										aggregate_columns[i].resize(aggregates[i].arguments.size());
 									/// Запоминаем столбцы, с которыми будем работать
 									for (size_t i = 0; i < keys_size; ++i)
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+									{
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+										key_columns[i] = block.getByPosition(keys[i]).column;
-												dbms: improved performance of aggregation by one numeric key (up to: 2x for UInt8, 5x for UInt16, 1.1x for UInt32, UInt64) [#METR-2944].

											
										
										
											2014-10-29 01:18:50 +00:00
+										if (key_columns[i]->isConst())
 											throw Exception("Constants is not allowed as GROUP BY keys"
 												" (but all of them must be eliminated in ExpressionAnalyzer)", ErrorCodes::ILLEGAL_COLUMN);
 									}
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+									for (size_t i = 0; i < aggregates_size; ++i)
 									{
 										for (size_t j = 0; j < aggregate_columns[i].size(); ++j)
 										{
 											aggregate_columns[i][j] = block.getByPosition(aggregates[i].arguments[j]).column;
 											/** Агрегатные функции рассчитывают, что в них передаются полноценные столбцы.
 												* Поэтому, стобцы-константы не разрешены в качестве аргументов агрегатных функций.
 												*/
 											if (aggregate_columns[i][j]->isConst())
 												throw Exception("Constants is not allowed as arguments of aggregate functions", ErrorCodes::ILLEGAL_COLUMN);
 										}
 									}
 									size_t rows = block.rows();
 									/// Каким способом выполнять агрегацию?
 									if (result.empty())
 									{
 										result.init(chooseAggregationMethod(key_columns, key_sizes));
 										result.keys_size = keys_size;
 										result.key_sizes = key_sizes;
 										LOG_TRACE(log, "Aggregation method: " << result.getMethodName());
 									}
 									if (overflow_row && !result.without_key)
 									{
 										result.without_key = result.aggregates_pool->alloc(total_size_of_aggregate_states);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+										createAggregateStates(result.without_key);
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+									}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									if (result.type == AggregatedDataVariants::Type::without_key)
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+									{
 										AggregatedDataWithoutKey & res = result.without_key;
 										if (!res)
 										{
 											res = result.aggregates_pool->alloc(total_size_of_aggregate_states);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+											createAggregateStates(res);
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+										}
 										/// Оптимизация в случае единственной агрегатной функции count.
 										AggregateFunctionCount * agg_count = aggregates_size == 1
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
+											? typeid_cast<AggregateFunctionCount *>(aggregate_functions[0])
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+											: NULL;
 										if (agg_count)
 											agg_count->addDelta(res, rows);
 										else
 										{
 											for (size_t i = 0; i < rows; ++i)
 											{
 												/// Добавляем значения
 												for (size_t j = 0; j < aggregates_size; ++j)
 													aggregate_functions[j]->add(res + offsets_of_aggregate_states[j], &aggregate_columns[j][0], i);
 											}
 										}
 									}
 									AggregateDataPtr overflow_row_ptr = overflow_row ? result.without_key : nullptr;
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+								#define M(NAME, IS_TWO_LEVEL) \
 									else if (result.type == AggregatedDataVariants::Type::NAME) \
 										executeImpl(*result.NAME, result.aggregates_pool, rows, key_columns, aggregate_columns, \
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+											result.key_sizes, key, no_more_keys, overflow_row_ptr);
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
 									if (false) {}
 									APPLY_FOR_AGGREGATED_VARIANT(M)
 								#undef M
 									else if (result.type != AggregatedDataVariants::Type::without_key)
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+										throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
 									/// Проверка ограничений.
 									if (!no_more_keys && max_rows_to_group_by && result.size() > max_rows_to_group_by)
 									{
 										if (group_by_overflow_mode == OverflowMode::THROW)
 											throw Exception("Limit for rows to GROUP BY exceeded: has " + toString(result.size())
 												+ " rows, maximum: " + toString(max_rows_to_group_by),
 												ErrorCodes::TOO_MUCH_ROWS);
 										else if (group_by_overflow_mode == OverflowMode::BREAK)
 											return false;
 										else if (group_by_overflow_mode == OverflowMode::ANY)
 											no_more_keys = true;
 										else
 											throw Exception("Logical error: unknown overflow mode", ErrorCodes::LOGICAL_ERROR);
 									}
 									return true;
 								}
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-28 05:24:38 +00:00
+								/** Результат хранится в оперативке и должен полностью помещаться в оперативку.
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
+								  */
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-26 07:25:22 +00:00
+								void Aggregator::execute(BlockInputStreamPtr stream, AggregatedDataVariants & result)
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
+								{
-												dbms: improved performance of aggregation by many fields: lowered number of allocs; more direct memory layout; don't use temporary Fields; lowered memory consumption [#CONV-2944].



											
										
										
											2013-06-30 16:56:00 +00:00
+									StringRefs key(keys_size);
-												dbms: improved performance of aggregation [#CONV-2944].



											
										
										
											2013-01-08 19:41:22 +00:00
+									ConstColumnPlainPtrs key_columns(keys_size);
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
+									AggregateColumns aggregate_columns(aggregates_size);
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+									Sizes key_sizes;
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
-												dbms: development of limits [#CONV-2944].



											
										
										
											2012-12-25 19:28:59 +00:00
+									/** Используется, если есть ограничение на максимальное количество строк при агрегации,
 									  *  и если group_by_overflow_mode == ANY.
 									  * В этом случае, новые ключи не добавляются в набор, а производится агрегация только по
 									  *  ключам, которые уже успели попасть в набор.
 									  */
 									bool no_more_keys = false;
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+									LOG_TRACE(log, "Aggregating");
-												dbms: continuing improvement (incomplete) [#CONV-2944].



											
										
										
											2013-02-08 20:34:30 +00:00
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+									Stopwatch watch;
 									size_t src_rows = 0;
 									size_t src_bytes = 0;
-												dbms: improvement [#CONV-2944].



											
										
										
											2013-02-09 01:02:52 +00:00
 									/// Читаем все данные
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
+									while (Block block = stream->read())
 									{
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+										src_rows += block.rows();
 										src_bytes += block.bytes();
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-25 05:07:47 +00:00
-												dbms: preparation [#METR-2944].

											
										
										
											2014-05-10 05:16:23 +00:00
+										if (!executeOnBlock(block, result,
 											key_columns, aggregate_columns, key_sizes, key,
 											no_more_keys))
 											break;
-												dbms: development [#CONV-2944].



											
										
										
											2011-09-26 07:25:22 +00:00
+									}
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
 									double elapsed_seconds = watch.elapsedSeconds();
 									size_t rows = result.size();
 									LOG_TRACE(log, std::fixed << std::setprecision(3)
 										<< "Aggregated. " << src_rows << " to " << rows << " rows (from " << src_bytes / 1048576.0 << " MiB)"
 										<< " in " << elapsed_seconds << " sec."
 										<< " (" << src_rows / elapsed_seconds << " rows/sec., " << src_bytes / elapsed_seconds / 1048576.0 << " MiB/sec.)");
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
+								}
-												clickhouse: totals mode: development. [#METR-9365]

											
										
										
											2014-02-26 11:44:54 +00:00
+								Block Aggregator::convertToBlock(AggregatedDataVariants & data_variants, bool final)
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+								{
-												dbms: Aggregator: fixed error [#CONV-2944].



											
										
										
											2013-09-16 05:33:49 +00:00
+									Block res = sample.cloneEmpty();
-												dbms: improved performance for queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:08:52 +00:00
+									size_t rows = data_variants.size();
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 00:33:42 +00:00
+									LOG_TRACE(log, "Converting aggregated data to block");
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+									Stopwatch watch;
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+									/// В какой структуре данных агрегированы данные?
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-10 07:47:13 +00:00
+									if (data_variants.empty())
-												dbms: Aggregator: fixed error [#CONV-2944].



											
										
										
											2013-09-16 05:33:49 +00:00
+										return Block();
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-10 07:47:13 +00:00
-												dbms: improved performance for queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:08:52 +00:00
+									ColumnPlainPtrs key_columns(keys_size);
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									AggregateColumnsData aggregate_columns(aggregates_size);
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+									ColumnPlainPtrs final_aggregate_columns(aggregates_size);
-												dbms: improved performance for queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:08:52 +00:00
 									for (size_t i = 0; i < keys_size; ++i)
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+									{
-												dbms: improved performance for queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:08:52 +00:00
+										key_columns[i] = res.getByPosition(i).column;
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+										key_columns[i]->reserve(rows);
 									}
-												dbms: improved performance for queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:08:52 +00:00
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+									try
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+									{
-												Merge

											
										
										
											2014-05-26 16:11:20 +00:00
+										for (size_t i = 0; i < aggregates_size; ++i)
 										{
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+											if (!final)
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+											{
 												/// Столбец ColumnAggregateFunction захватывает разделяемое владение ареной с состояниями агрегатных функций.
 												ColumnAggregateFunction & column_aggregate_func = static_cast<ColumnAggregateFunction &>(*res.getByPosition(i + keys_size).column);
 												for (size_t j = 0; j < data_variants.aggregates_pools.size(); ++j)
 													column_aggregate_func.addArena(data_variants.aggregates_pools[j]);
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+												aggregate_columns[i] = &column_aggregate_func.getData();
 												aggregate_columns[i]->resize(rows);
 											}
 											else
 											{
 												ColumnWithNameAndType & column = res.getByPosition(i + keys_size);
 												column.type = aggregate_functions[i]->getReturnType();
 												column.column = column.type->createColumn();
 												column.column->reserve(rows);
-												dbms: continue improvement [#CONV-2944].



											
										
										
											2013-02-09 00:12:04 +00:00
-												dbms: more fixes on aggregate function columns [METR-10894]

											
										
										
											2014-05-30 16:21:30 +00:00
+												if (aggregate_functions[i]->isState())
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+												{
 													/// Столбец ColumnAggregateFunction захватывает разделяемое владение ареной с состояниями агрегатных функций.
 													ColumnAggregateFunction & column_aggregate_func = static_cast<ColumnAggregateFunction &>(*column.column);
-												dbms: development [#METR-10894].

											
										
										
											2014-06-05 19:52:13 +00:00
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+													for (size_t j = 0; j < data_variants.aggregates_pools.size(); ++j)
 														column_aggregate_func.addArena(data_variants.aggregates_pools[j]);
 												}
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+												final_aggregate_columns[i] = column.column;
 											}
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+										}
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										if (data_variants.type == AggregatedDataVariants::Type::without_key || overflow_row)
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+										{
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+											AggregatedDataWithoutKey & data = data_variants.without_key;
-												dbms: continuing improvement (incomplete) [#CONV-2944].



											
										
										
											2013-02-08 20:34:30 +00:00
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+											for (size_t i = 0; i < aggregates_size; ++i)
-												Merge

											
										
										
											2014-05-28 14:54:42 +00:00
+												if (!final)
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+													(*aggregate_columns[i])[0] = data + offsets_of_aggregate_states[i];
 												else
 													aggregate_functions[i]->insertResultInto(data + offsets_of_aggregate_states[i], *final_aggregate_columns[i]);
 											if (overflow_row)
 												for (size_t i = 0; i < keys_size; ++i)
 													key_columns[i]->insertDefault();
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+										}
-												dbms: improved performance for queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:08:52 +00:00
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+										size_t start_row = overflow_row ? 1 : 0;
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									#define M(NAME, IS_TWO_LEVEL) \
 										else if (data_variants.type == AggregatedDataVariants::Type::NAME) \
 											convertToBlockImpl(*data_variants.NAME, key_columns, aggregate_columns, \
 												final_aggregate_columns, data_variants.key_sizes, start_row, final);
 										if (false) {}
 										APPLY_FOR_AGGREGATED_VARIANT(M)
 									#undef M
 										else if (data_variants.type != AggregatedDataVariants::Type::without_key)
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+											throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
 									}
 									catch (...)
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+									{
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+										/** Работа с состояниями агрегатных функций недостаточно exception-safe.
 										  * Если часть столбцов aggregate_columns была resize-на, но значения не были вставлены,
 										  *  то эти столбцы будут в некорректном состоянии
 										  *  (ColumnAggregateFunction попытаются в деструкторе вызвать деструкторы у элементов, которых нет),
 										  *  а также деструкторы будут вызываться у AggregatedDataVariants.
 										  * Поэтому, вручную "откатываем" их.
 										  */
-												Merge

											
										
										
											2014-05-21 13:27:40 +00:00
+										for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+											if (aggregate_columns[i])
 												aggregate_columns[i]->clear();
-												dbms: added totals as separate data in JSON formats [#CONV-8366].



											
										
										
											2013-09-01 04:55:41 +00:00
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11220].

											
										
										
											2014-05-22 18:58:41 +00:00
+										throw;
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+									}
-												clickhouse: totals mode: development. [#METR-9365]

											
										
										
											2014-02-26 11:44:54 +00:00
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+									if (!final)
 									{
 										/// data_variants не будет уничтожать состояния агрегатных функций в деструкторе. Теперь состояниями владеют ColumnAggregateFunction.
-												Improvement [#METR-2807].

											
										
										
											2014-04-08 07:31:51 +00:00
+										data_variants.aggregator = nullptr;
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+									}
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+									/// Изменяем размер столбцов-констант в блоке.
 									size_t columns = res.columns();
 									for (size_t i = 0; i < columns; ++i)
 										if (res.getByPosition(i).column->isConst())
-												dbms: fixed error [#CONV-7486].



											
										
										
											2013-05-03 05:23:14 +00:00
+											res.getByPosition(i).column = res.getByPosition(i).column->cut(0, rows);
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+									double elapsed_seconds = watch.elapsedSeconds();
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+									LOG_TRACE(log, std::fixed << std::setprecision(3)
 										<< "Converted aggregated data to block. "
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+										<< rows << " rows, " << res.bytes() / 1048576.0 << " MiB"
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+										<< " in " << elapsed_seconds << " sec."
-												dbms: improved performance of queries with large aggregation result [#CONV-2944].



											
										
										
											2013-02-03 18:39:09 +00:00
+										<< " (" << rows / elapsed_seconds << " rows/sec., " << res.bytes() / elapsed_seconds / 1048576.0 << " MiB/sec.)");
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 00:33:42 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+									return res;
 								}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:56:01 +00:00
+								AggregatedDataVariantsPtr Aggregator::merge(ManyAggregatedDataVariants & data_variants, size_t max_threads)
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+								{
 									if (data_variants.empty())
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 07:54:16 +00:00
+								 		throw Exception("Empty data passed to Aggregator::merge().", ErrorCodes::EMPTY_DATA_PASSED);
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 00:33:42 +00:00
+									LOG_TRACE(log, "Merging aggregated data");
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+									Stopwatch watch;
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									ManyAggregatedDataVariants non_empty_data;
 									non_empty_data.reserve(data_variants.size());
 									for (auto & data : data_variants)
 										if (!data->empty())
 											non_empty_data.push_back(data);
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									if (non_empty_data.empty())
 										return data_variants[0];
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									if (non_empty_data.size() == 1)
 										return non_empty_data[0];
-												dbms: continue improvement [#CONV-2944].



											
										
										
											2013-02-09 00:12:04 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									AggregatedDataVariantsPtr res = non_empty_data[0];
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-10 07:47:13 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									size_t rows = res->size();
 									for (size_t i = 1, size = non_empty_data.size(); i < size; ++i)
 									{
 										rows += non_empty_data[i]->size();
 										AggregatedDataVariants & current = *non_empty_data[i];
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-10 07:47:13 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-08-21 18:34:55 +00:00
+										if (res->type != current.type)
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+											throw Exception("Cannot merge different aggregated data variants.", ErrorCodes::CANNOT_MERGE_DIFFERENT_AGGREGATED_DATA_VARIANTS);
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+										res->aggregates_pools.insert(res->aggregates_pools.end(), current.aggregates_pools.begin(), current.aggregates_pools.end());
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+									}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+									/// В какой структуре данных агрегированы данные?
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									if (res->type == AggregatedDataVariants::Type::without_key || overflow_row)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+										mergeWithoutKeyDataImpl(non_empty_data);
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:56:01 +00:00
+									boost::threadpool::pool * thread_pool = nullptr;
 									if (max_threads > 1 && rows > 100000	/// TODO Сделать настраиваемый порог.
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										&& res->isTwoLevel())
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:56:01 +00:00
+										thread_pool = new boost::threadpool::pool(max_threads);
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									/// TODO Упростить.
 									if (res->type == AggregatedDataVariants::Type::key8)
 										mergeSingleLevelDataImpl<decltype(res->key8)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::key16)
 										mergeSingleLevelDataImpl<decltype(res->key16)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::key32)
 										mergeSingleLevelDataImpl<decltype(res->key32)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::key64)
 										mergeSingleLevelDataImpl<decltype(res->key64)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::key_string)
 										mergeSingleLevelDataImpl<decltype(res->key_string)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::key_fixed_string)
 										mergeSingleLevelDataImpl<decltype(res->key_fixed_string)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::keys128)
 										mergeSingleLevelDataImpl<decltype(res->keys128)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::hashed)
 										mergeSingleLevelDataImpl<decltype(res->hashed)::element_type>(non_empty_data);
 									else if (res->type == AggregatedDataVariants::Type::key32_two_level)
 										mergeTwoLevelDataImpl<decltype(res->key32_two_level)::element_type>(non_empty_data, thread_pool);
 									else if (res->type == AggregatedDataVariants::Type::key64_two_level)
 										mergeTwoLevelDataImpl<decltype(res->key64_two_level)::element_type>(non_empty_data, thread_pool);
 									else if (res->type == AggregatedDataVariants::Type::key_string_two_level)
 										mergeTwoLevelDataImpl<decltype(res->key_string_two_level)::element_type>(non_empty_data, thread_pool);
 									else if (res->type == AggregatedDataVariants::Type::key_fixed_string_two_level)
 										mergeTwoLevelDataImpl<decltype(res->key_fixed_string_two_level)::element_type>(non_empty_data, thread_pool);
 									else if (res->type == AggregatedDataVariants::Type::keys128_two_level)
 										mergeTwoLevelDataImpl<decltype(res->keys128_two_level)::element_type>(non_empty_data, thread_pool);
 									else if (res->type == AggregatedDataVariants::Type::hashed_two_level)
 										mergeTwoLevelDataImpl<decltype(res->hashed_two_level)::element_type>(non_empty_data, thread_pool);
 									else if (res->type != AggregatedDataVariants::Type::without_key)
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-25 20:18:01 +00:00
+										throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+									double elapsed_seconds = watch.elapsedSeconds();
 									size_t res_rows = res->size();
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: Aggregator: more logging [#CONV-2944].



											
										
										
											2013-02-04 03:31:53 +00:00
+									LOG_TRACE(log, std::fixed << std::setprecision(3)
 										<< "Merged aggregated data. "
 										<< "From " << rows << " to " << res_rows << " rows (efficiency: " << static_cast<double>(rows) / res_rows << ")"
 										<< " in " << elapsed_seconds << " sec."
 										<< " (" << rows / elapsed_seconds << " rows/sec.)");
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 00:33:42 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-08-21 18:34:55 +00:00
+									return res;
-												dbms: development [#CONV-2944].



											
										
										
											2012-02-27 06:28:20 +00:00
+								}
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+								void Aggregator::merge(BlockInputStreamPtr stream, AggregatedDataVariants & result)
 								{
-												dbms: improved performance of aggregation by many fields: lowered number of allocs; more direct memory layout; don't use temporary Fields; lowered memory consumption [#CONV-2944].



											
										
										
											2013-06-30 16:56:00 +00:00
+									StringRefs key(keys_size);
-												dbms: improved performance of aggregation [#CONV-2944].



											
										
										
											2013-01-08 19:41:22 +00:00
+									ConstColumnPlainPtrs key_columns(keys_size);
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+									AggregateColumnsData aggregate_columns(aggregates_size);
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
-												dbms: probably fixed error in Aggregator [#CONV-2944].



											
										
										
											2013-02-13 19:24:19 +00:00
+									Block empty_block;
 									initialize(empty_block);
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+									/// result будет уничтожать состояния агрегатных функций в деструкторе
 									result.aggregator = this;
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+									/// Читаем все данные
 									while (Block block = stream->read())
 									{
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 00:33:42 +00:00
+										LOG_TRACE(log, "Merging aggregated block");
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 03:30:29 +00:00
+										if (!sample)
 											for (size_t i = 0; i < keys_size + aggregates_size; ++i)
 												sample.insert(block.getByPosition(i).cloneEmpty());
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+										/// Запоминаем столбцы, с которыми будем работать
 										for (size_t i = 0; i < keys_size; ++i)
 											key_columns[i] = block.getByPosition(i).column;
 										for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
+											aggregate_columns[i] = &typeid_cast<ColumnAggregateFunction &>(*block.getByPosition(keys_size + i).column).getData();
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
 										size_t rows = block.rows();
 										/// Каким способом выполнять агрегацию?
 										Sizes key_sizes;
-												dbms: improved performance for small queries [#METR-8582].



											
										
										
											2013-12-16 02:32:00 +00:00
+										AggregatedDataVariants::Type method = chooseAggregationMethod(key_columns, key_sizes);
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: improved performance for small queries [#METR-8582].



											
										
										
											2013-12-16 02:32:00 +00:00
+										if (result.empty())
 										{
 											result.init(method);
 											result.keys_size = keys_size;
 											result.key_sizes = key_sizes;
 										}
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+										if (result.type == AggregatedDataVariants::Type::without_key || overflow_row)
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+										{
 											AggregatedDataWithoutKey & res = result.without_key;
-												dbms: continue of improvement [#CONV-2944].



											
										
										
											2013-02-08 23:41:05 +00:00
+											if (!res)
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+											{
-												dbms: continue of improvement [#CONV-2944].



											
										
										
											2013-02-08 23:41:05 +00:00
+												res = result.aggregates_pool->alloc(total_size_of_aggregate_states);
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+												createAggregateStates(res);
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+											}
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 03:30:29 +00:00
 											/// Добавляем значения
 											for (size_t i = 0; i < aggregates_size; ++i)
-												dbms: continue of improvement [#CONV-2944].



											
										
										
											2013-02-08 23:41:05 +00:00
+												aggregate_functions[i]->merge(res + offsets_of_aggregate_states[i], (*aggregate_columns[i])[0]);
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+										}
-												dbms: fixed error after adding 'WITH TOTALS' modifier [#CONV-7489].



											
										
										
											2013-05-06 11:45:28 +00:00
-												clickhouse: totals modes. [#METR-9365]

											
										
										
											2014-02-27 12:49:21 +00:00
+										size_t start_row = overflow_row ? 1 : 0;
-												clickhouse: totals mode: development. [#METR-9365]

											
										
										
											2014-02-26 11:44:54 +00:00
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									#define M(NAME, IS_TWO_LEVEL) \
 										else if (result.type == AggregatedDataVariants::Type::NAME) \
 											mergeStreamsImpl(*result.NAME, result.aggregates_pool, start_row, rows, key_columns, aggregate_columns, key_sizes, key);
 										if (false) {}
 										APPLY_FOR_AGGREGATED_VARIANT(M)
 									#undef M
 										else if (result.type != AggregatedDataVariants::Type::without_key)
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+											throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-31 00:33:42 +00:00
 										LOG_TRACE(log, "Merged aggregated block");
-												dbms: development [#CONV-2944].



											
										
										
											2012-05-30 01:38:02 +00:00
+									}
 								}
-												dbms: fixed segfault in case of memory limit exceeded [#METR-11160].

											
										
										
											2014-05-19 19:41:56 +00:00
+								void Aggregator::destroyAllAggregateStates(AggregatedDataVariants & result)
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+								{
 									if (result.size() == 0)
 										return;
-												dbms: merged convertToBlock and finalize aggregation steps whenever possible [#METR-2944].



											
										
										
											2013-11-03 23:35:18 +00:00
+									LOG_TRACE(log, "Destroying aggregate states");
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
 									/// В какой структуре данных агрегированы данные?
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+									if (result.type == AggregatedDataVariants::Type::without_key || overflow_row)
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+									{
 										AggregatedDataWithoutKey & res_data = result.without_key;
-												dbms: development [#METR-10894].

											
										
										
											2014-06-05 19:52:13 +00:00
+										if (nullptr != res_data)
 											for (size_t i = 0; i < aggregates_size; ++i)
 												if (!aggregate_functions[i]->isState())
 													aggregate_functions[i]->destroy(res_data + offsets_of_aggregate_states[i]);
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+									}
-												dbms: more scalable aggregator: development [#METR-2944].

											
										
										
											2014-12-30 10:16:23 +00:00
+								#define M(NAME, IS_TWO_LEVEL) \
 									else if (result.type == AggregatedDataVariants::Type::NAME) \
 										destroyImpl(*result.NAME);
 									if (false) {}
 									APPLY_FOR_AGGREGATED_VARIANT(M)
 								#undef M
 									else if (result.type != AggregatedDataVariants::Type::without_key)
-												dbms: Aggregator: decomposed code to easier trying more aggregation methods; performance is suddenly improved up to 25%; fixed memory leak when exception while aggregating by KEYS_128 method [#METR-2944].

											
										
										
											2014-05-10 00:31:22 +00:00
+										throw Exception("Unknown aggregated data variant.", ErrorCodes::UNKNOWN_AGGREGATED_DATA_VARIANT);
-												dbms: fixed possible leak [#CONV-2944].



											
										
										
											2013-02-16 18:59:05 +00:00
+								}
-												dbms: development of multi-queries [#CONV-2944].



											
										
										
											2013-05-03 10:20:53 +00:00
 								String Aggregator::getID() const
 								{
 									std::stringstream res;
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: development of multi-queries [#CONV-2944].



											
										
										
											2013-05-03 10:20:53 +00:00
+									if (keys.empty())
 									{
 										res << "key_names";
 										for (size_t i = 0; i < key_names.size(); ++i)
 											res << ", " << key_names[i];
 									}
 									else
 									{
 										res << "keys";
 										for (size_t i = 0; i < keys.size(); ++i)
 											res << ", " << keys[i];
 									}
 									res << ", aggregates";
 									for (size_t i = 0; i < aggregates.size(); ++i)
 										res << ", " << aggregates[i].column_name;
 									return res.str();
 								}
-												dbms: development.



											
										
										
											2011-09-19 01:42:16 +00:00
+								}