ClickHouse/dbms/include/DB/Storages/MergeTree/MergedBlockOutputStream.h

#pragma once

#include <DB/IO/WriteBufferFromFile.h>
#include <DB/IO/CompressedWriteBuffer.h>
#include <DB/IO/HashingWriteBuffer.h>
#include <DB/Storages/MergeTree/MergeTreeData.h>
#include <DB/DataStreams/IBlockOutputStream.h>


namespace DB
{


class IMergedBlockOutputStream : public IBlockOutputStream
{
public:
	IMergedBlockOutputStream(
		MergeTreeData & storage_,
		size_t min_compress_block_size_,
		size_t max_compress_block_size_,
		CompressionMethod compression_method_,
		size_t aio_threshold_);

protected:
	using OffsetColumns = std::set<std::string>;

	struct ColumnStream
	{
		ColumnStream(
			const String & escaped_column_name_,
			const String & data_path,
			const std::string & data_file_extension_,
			const std::string & marks_path,
			const std::string & marks_file_extension_,
			size_t max_compress_block_size,
			CompressionMethod compression_method,
			size_t estimated_size,
			size_t aio_threshold);

		String escaped_column_name;
		std::string data_file_extension;
		std::string marks_file_extension;

		/// compressed -> compressed_buf -> plain_hashing -> plain_file
		std::unique_ptr<WriteBufferFromFileBase> plain_file;
		HashingWriteBuffer plain_hashing;
		CompressedWriteBuffer compressed_buf;
		HashingWriteBuffer compressed;

		/// marks -> marks_file
		WriteBufferFromFile marks_file;
		HashingWriteBuffer marks;

		void finalize();

		void sync();

		void addToChecksums(MergeTreeData::DataPart::Checksums & checksums, String name = "");
	};

	using ColumnStreams = std::map<String, std::unique_ptr<ColumnStream>>;

	void addStream(const String & path, const String & name, const IDataType & type, size_t estimated_size = 0, size_t level = 0, String filename = "");
	void addNullStream(const String & path, const String & name, size_t estimated_size, String filename);


	/// Записать данные одного столбца.
	void writeData(const String & name, const IDataType & type, const IColumn & column, OffsetColumns & offset_columns, size_t level = 0);

	MergeTreeData & storage;

	ColumnStreams column_streams;
	ColumnStreams null_streams;

	/// Смещение до первой строчки блока, для которой надо записать индекс.
	size_t index_offset = 0;

	size_t min_compress_block_size;
	size_t max_compress_block_size;

	size_t aio_threshold;

	CompressionMethod compression_method;
};


/** Для записи одного куска.
  * Данные относятся к одному месяцу, и пишутся в один кускок.
  */
class MergedBlockOutputStream : public IMergedBlockOutputStream
{
public:
	MergedBlockOutputStream(
		MergeTreeData & storage_,
		String part_path_,
		const NamesAndTypesList & columns_list_,
		CompressionMethod compression_method);

	MergedBlockOutputStream(
		MergeTreeData & storage_,
		String part_path_,
		const NamesAndTypesList & columns_list_,
		CompressionMethod compression_method,
		const MergeTreeData::DataPart::ColumnToSize & merged_column_to_size_,
		size_t aio_threshold_);

	std::string getPartPath() const;

	/// Если данные заранее отсортированы.
	void write(const Block & block) override;

	/** Если данные не отсортированы, но мы заранее вычислили перестановку, после которой они станут сортированными.
	  * Этот метод используется для экономии оперативки, так как не нужно держать одновременно два блока - исходный и отсортированный.
	  */
	void writeWithPermutation(const Block & block, const IColumn::Permutation * permutation);

	void writeSuffix() override;

	MergeTreeData::DataPart::Checksums writeSuffixAndGetChecksums();

	MergeTreeData::DataPart::Index & getIndex();

	/// Сколько засечек уже записано.
	size_t marksCount();

private:
	void init();

	/** Если задана permutation, то переставляет значения в столбцах при записи.
	  * Это нужно, чтобы не держать целый блок в оперативке для его сортировки.
	  */
	void writeImpl(const Block & block, const IColumn::Permutation * permutation);

private:
	NamesAndTypesList columns_list;
	String part_path;

	size_t marks_count = 0;

	std::unique_ptr<WriteBufferFromFile> index_file_stream;
	std::unique_ptr<HashingWriteBuffer> index_stream;
	MergeTreeData::DataPart::Index index_columns;
};


/// Записывает только те, столбцы, что лежат в block
class MergedColumnOnlyOutputStream : public IMergedBlockOutputStream
{
public:
	MergedColumnOnlyOutputStream(MergeTreeData & storage_, String part_path_, bool sync_, CompressionMethod compression_method);
	void write(const Block & block) override;
	void writeSuffix() override;
	MergeTreeData::DataPart::Checksums writeSuffixAndGetChecksums();

private:
	String part_path;

	bool initialized = false;
	bool sync;
};

}
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+								#pragma once
-												Merge

											
										
										
											2013-09-15 01:10:16 +00:00
+								#include <DB/IO/WriteBufferFromFile.h>
 								#include <DB/IO/CompressedWriteBuffer.h>
-												Merge

											
										
										
											2014-03-27 17:30:04 +00:00
+								#include <DB/IO/HashingWriteBuffer.h>
-												Merge

											
										
										
											2014-03-09 17:36:01 +00:00
+								#include <DB/Storages/MergeTree/MergeTreeData.h>
-												dbms: cut dependencies [#METR-2944].

											
										
										
											2015-04-16 06:12:35 +00:00
+								#include <DB/DataStreams/IBlockOutputStream.h>
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
-												Merge

											
										
										
											2013-09-15 01:10:16 +00:00
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+								namespace DB
 								{
-												dbms: lowered memory usage for INSERT [#METR-17704].

											
										
										
											2015-08-14 02:45:40 +00:00
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+								class IMergedBlockOutputStream : public IBlockOutputStream
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+								{
 								public:
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									IMergedBlockOutputStream(
 										MergeTreeData & storage_,
 										size_t min_compress_block_size_,
 										size_t max_compress_block_size_,
-												dbms: Server: Added support for the client-side parameter min_bytes_to_use_direct_io in OPTIMIZE. [#METR-15090]

											
										
										
											2015-04-10 15:31:51 +00:00
+										CompressionMethod compression_method_,
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+										size_t aio_threshold_);
-												Merge

											
										
										
											2013-08-24 08:01:19 +00:00
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+								protected:
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									using OffsetColumns = std::set<std::string>;
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+									struct ColumnStream
 									{
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+										ColumnStream(
 											const String & escaped_column_name_,
 											const String & data_path,
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+											const std::string & data_file_extension_,
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+											const std::string & marks_path,
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+											const std::string & marks_file_extension_,
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+											size_t max_compress_block_size,
-												dbms: Server: feature development. [#METR-15090]

											
										
										
											2015-04-08 16:48:47 +00:00
+											CompressionMethod compression_method,
 											size_t estimated_size,
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+											size_t aio_threshold);
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												Merge

											
										
										
											2014-03-27 17:30:04 +00:00
+										String escaped_column_name;
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+										std::string data_file_extension;
 										std::string marks_file_extension;
-												Merge

											
										
										
											2014-04-14 13:08:26 +00:00
 										/// compressed -> compressed_buf -> plain_hashing -> plain_file
-												dbms: Server: feature development. [#METR-15090]

											
										
										
											2015-04-08 16:48:47 +00:00
+										std::unique_ptr<WriteBufferFromFileBase> plain_file;
-												Merge

											
										
										
											2014-04-14 13:08:26 +00:00
+										HashingWriteBuffer plain_hashing;
-												Merge

											
										
										
											2014-03-27 17:30:04 +00:00
+										CompressedWriteBuffer compressed_buf;
-												Merge

											
										
										
											2014-04-14 13:13:20 +00:00
+										HashingWriteBuffer compressed;
-												Merge

											
										
										
											2014-04-14 13:08:26 +00:00
 										/// marks -> marks_file
 										WriteBufferFromFile marks_file;
-												Merge

											
										
										
											2014-03-27 17:30:04 +00:00
+										HashingWriteBuffer marks;
-												Merge

											
										
										
											2013-09-15 01:10:16 +00:00
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+										void finalize();
 										void sync();
 										void addToChecksums(MergeTreeData::DataPart::Checksums & checksums, String name = "");
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+									};
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									using ColumnStreams = std::map<String, std::unique_ptr<ColumnStream>>;
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void addStream(const String & path, const String & name, const IDataType & type, size_t estimated_size = 0, size_t level = 0, String filename = "");
 									void addNullStream(const String & path, const String & name, size_t estimated_size, String filename);
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+									/// Записать данные одного столбца.
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void writeData(const String & name, const IDataType & type, const IColumn & column, OffsetColumns & offset_columns, size_t level = 0);
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												Merge

											
										
										
											2014-03-09 17:36:01 +00:00
+									MergeTreeData & storage;
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
 									ColumnStreams column_streams;
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									ColumnStreams null_streams;
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
 									/// Смещение до первой строчки блока, для которой надо записать индекс.
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									size_t index_offset = 0;
-												Merge

											
										
										
											2014-04-08 15:29:12 +00:00
 									size_t min_compress_block_size;
 									size_t max_compress_block_size;
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
-												dbms: Server: feature development. [#METR-15090]

											
										
										
											2015-04-08 16:48:47 +00:00
+									size_t aio_threshold;
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									CompressionMethod compression_method;
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+								};
-												dbms: lowered memory usage for INSERT [#METR-17704].

											
										
										
											2015-08-14 02:45:40 +00:00
 								/** Для записи одного куска.
 								  * Данные относятся к одному месяцу, и пишутся в один кускок.
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+								  */
 								class MergedBlockOutputStream : public IMergedBlockOutputStream
 								{
 								public:
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									MergedBlockOutputStream(
 										MergeTreeData & storage_,
 										String part_path_,
 										const NamesAndTypesList & columns_list_,
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+										CompressionMethod compression_method);
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: Server: Added support for the client-side parameter min_bytes_to_use_direct_io in OPTIMIZE. [#METR-15090]

											
										
										
											2015-04-10 15:31:51 +00:00
+									MergedBlockOutputStream(
 										MergeTreeData & storage_,
 										String part_path_,
 										const NamesAndTypesList & columns_list_,
 										CompressionMethod compression_method,
-												dbms: Server: min_bytes_to_use_direct_io = 0 means no AIO; various cleanups. [#METR-15090]

											
										
										
											2015-04-10 17:09:16 +00:00
+										const MergeTreeData::DataPart::ColumnToSize & merged_column_to_size_,
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+										size_t aio_threshold_);
 									std::string getPartPath() const;
-												Merge

											
										
										
											2016-01-28 16:06:57 +00:00
-												dbms: lowered memory usage for INSERT [#METR-17704].

											
										
										
											2015-08-14 02:45:40 +00:00
+									/// Если данные заранее отсортированы.
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void write(const Block & block) override;
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												dbms: lowered memory usage for INSERT [#METR-17704].

											
										
										
											2015-08-14 02:45:40 +00:00
+									/** Если данные не отсортированы, но мы заранее вычислили перестановку, после которой они станут сортированными.
 									  * Этот метод используется для экономии оперативки, так как не нужно держать одновременно два блока - исходный и отсортированный.
 									  */
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void writeWithPermutation(const Block & block, const IColumn::Permutation * permutation);
-												Merge

											
										
										
											2014-03-27 17:30:04 +00:00
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void writeSuffix() override;
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									MergeTreeData::DataPart::Checksums writeSuffixAndGetChecksums();
 									MergeTreeData::DataPart::Index & getIndex();
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+									/// Сколько засечек уже записано.
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									size_t marksCount();
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
-												dbms: Server: Added support for the client-side parameter min_bytes_to_use_direct_io in OPTIMIZE. [#METR-15090]

											
										
										
											2015-04-10 15:31:51 +00:00
+								private:
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void init();
-												dbms: Server: Added support for the client-side parameter min_bytes_to_use_direct_io in OPTIMIZE. [#METR-15090]

											
										
										
											2015-04-10 15:31:51 +00:00
-												dbms: lowered memory usage for INSERT [#METR-17704].

											
										
										
											2015-08-14 02:45:40 +00:00
+									/** Если задана permutation, то переставляет значения в столбцах при записи.
 									  * Это нужно, чтобы не держать целый блок в оперативке для его сортировки.
 									  */
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									void writeImpl(const Block & block, const IColumn::Permutation * permutation);
-												dbms: lowered memory usage for INSERT [#METR-17704].

											
										
										
											2015-08-14 02:45:40 +00:00
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+								private:
-												Merge

											
										
										
											2014-03-13 12:48:07 +00:00
+									NamesAndTypesList columns_list;
-												Deduplicated code for merge tree writing; previous commit is useless. [#METR-10202]

											
										
										
											2014-03-27 12:32:37 +00:00
+									String part_path;
-												Merge

											
										
										
											2014-03-13 12:48:07 +00:00
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									size_t marks_count = 0;
-												Deduplicated code for merge tree writing; previous commit is useless. [#METR-10202]

											
										
										
											2014-03-27 12:32:37 +00:00
-												Using std::shared_ptr for data types [#METR-21503].

											
										
										
											2016-05-28 14:14:18 +00:00
+									std::unique_ptr<WriteBufferFromFile> index_file_stream;
 									std::unique_ptr<HashingWriteBuffer> index_stream;
-												Lowered size of index in memory (experimental) [#METR-2944].

											
										
										
											2016-02-14 05:43:03 +00:00
+									MergeTreeData::DataPart::Index index_columns;
-												Merge

											
										
										
											2013-04-24 10:31:32 +00:00
+								};
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
 								/// Записывает только те, столбцы, что лежат в block
 								class MergedColumnOnlyOutputStream : public IMergedBlockOutputStream
 								{
 								public:
-												dbms: NULL support for MergeTree [#METR-19266]

											
										
										
											2016-07-21 16:22:24 +00:00
+									MergedColumnOnlyOutputStream(MergeTreeData & storage_, String part_path_, bool sync_, CompressionMethod compression_method);
 									void write(const Block & block) override;
 									void writeSuffix() override;
 									MergeTreeData::DataPart::Checksums writeSuffixAndGetChecksums();
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
 								private:
 									String part_path;
-												dbms: different compression methods on merge: preparation [#METR-15386].

											
										
										
											2015-03-14 02:36:39 +00:00
+									bool initialized = false;
-												dbms: added sync [#METR-10242]

											
										
										
											2014-03-05 16:28:24 +00:00
+									bool sync;
-												dbms: added code to modify column type [#METR-10242]

											
										
										
											2014-03-04 11:30:50 +00:00
+								};
-												dbms: improved performance on short queries [#METR-11571].

											
										
										
											2014-06-26 00:58:14 +00:00
-												Merge

											
										
										
											2013-09-26 19:16:43 +00:00
+								}