ClickHouse/src/Storages/MergeTree/MergeTreeDataPartWriterCompact.h

#include <Storages/MergeTree/MergeTreeDataPartWriterOnDisk.h>

namespace DB
{

/// Writes data part in compact format.
class MergeTreeDataPartWriterCompact : public MergeTreeDataPartWriterOnDisk
{
public:
    MergeTreeDataPartWriterCompact(
        const MergeTreeData::DataPartPtr & data_part,
        const NamesAndTypesList & columns_list,
        const StorageMetadataPtr & metadata_snapshot_,
        const std::vector<MergeTreeIndexPtr> & indices_to_recalc,
        const String & marks_file_extension,
        const CompressionCodecPtr & default_codec,
        const MergeTreeWriterSettings & settings,
        const MergeTreeIndexGranularity & index_granularity);

    void write(const Block & block, const IColumn::Permutation * permutation,
        const Block & primary_key_block, const Block & skip_indexes_block) override;

    void finishDataSerialization(IMergeTreeDataPart::Checksums & checksums, bool sync) override;

protected:
    void fillIndexGranularity(size_t index_granularity_for_block, size_t rows_in_block) override;

private:
    void writeBlock(const Block & block);

    void addToChecksums(MergeTreeDataPartChecksums & checksums);

    void addStreams(const String & name, const IDataType & type, const ASTPtr & effective_codec_desc);

    Block header;

    /** Simplified SquashingTransform. The original one isn't suitable in this case
      *  as it can return smaller block from buffer without merging it with larger block if last is enough size.
      * But in compact parts we should guarantee, that written block is larger or equals than index_granularity.
      */
    class ColumnsBuffer
    {
    public:
        void add(MutableColumns && columns);
        size_t size() const;
        Columns releaseColumns();
    private:
        MutableColumns accumulated_columns;
    };

    ColumnsBuffer columns_buffer;

    /// hashing_buf -> compressed_buf -> plain_hashing -> plain_file
    std::unique_ptr<WriteBufferFromFileBase> plain_file;
    HashingWriteBuffer plain_hashing;

    struct CompressedStream
    {
        UInt64 codec_id;
        CompressedWriteBuffer compressed_buf;
        HashingWriteBuffer hashing_buf;

        CompressedStream(UInt64 codec_id_, WriteBuffer & buf, const CompressionCodecPtr & codec)
            : codec_id(codec_id_)
            , compressed_buf(buf, codec)
            , hashing_buf(compressed_buf) {}
    };

    using CompressedStreamPtr = std::shared_ptr<CompressedStream>;

    /// Create compressed stream for every different codec.
    std::unordered_map<UInt64, CompressedStreamPtr> streams_by_codec;

    /// For better performance save pointer to stream by every column.
    std::unordered_map<String, CompressedStreamPtr> compressed_streams;

    /// marks -> marks_file
    std::unique_ptr<WriteBufferFromFileBase> marks_file;
    HashingWriteBuffer marks;

    /// Write single granule of one column (rows between 2 marks)
    static void writeColumnSingleGranule(
        const ColumnWithTypeAndName & column,
        IDataType::OutputStreamGetter stream_getter,
        size_t from_row,
        size_t number_of_rows);
};

}
in-memory parts: preparation 2020-04-14 01:26:34 +00:00			`#include <Storages/MergeTree/MergeTreeDataPartWriterOnDisk.h>`
polymorphic parts (development) 2019-10-16 18:27:53 +00:00
			`namespace DB`
			`{`

add comments near DataPart code 2020-02-03 12:08:40 +00:00			`/// Writes data part in compact format.`
in-memory parts: preparation 2020-04-14 01:26:34 +00:00			`class MergeTreeDataPartWriterCompact : public MergeTreeDataPartWriterOnDisk`
polymorphic parts (development) 2019-10-16 18:27:53 +00:00			`{`
			`public:`
polymorphic parts (development) 2019-10-22 10:50:17 +00:00			`MergeTreeDataPartWriterCompact(`
data_part instead of volume in IMergeTreeDataPartWriter (as it done in IMergeTreeReader) 2020-05-10 13:33:27 +00:00			`const MergeTreeData::DataPartPtr & data_part,`
polymorphic parts (development) 2019-10-22 10:50:17 +00:00			`const NamesAndTypesList & columns_list,`
Primary key in storage metadata 2020-06-17 12:39:20 +00:00			`const StorageMetadataPtr & metadata_snapshot_,`
polymorphic parts (development) cleanup 2019-12-18 16:41:11 +00:00			`const std::vector<MergeTreeIndexPtr> & indices_to_recalc,`
polymorphic parts (development) 2019-10-22 10:50:17 +00:00			`const String & marks_file_extension,`
			`const CompressionCodecPtr & default_codec,`
polymorphic parts (development) cleanup 2019-12-18 15:54:45 +00:00			`const MergeTreeWriterSettings & settings,`
polymorphic parts (development) 2019-11-07 11:11:38 +00:00			`const MergeTreeIndexGranularity & index_granularity);`
polymorphic parts (development) 2019-10-22 10:50:17 +00:00
Added even more clang-tidy checks 2020-03-18 03:27:32 +00:00			`void write(const Block & block, const IColumn::Permutation * permutation,`
			`const Block & primary_key_block, const Block & skip_indexes_block) override;`
polymorphic parts (development) 2019-10-16 18:27:53 +00:00
allow to turn on fsync on inserts and merges 2020-06-25 16:55:45 +00:00			`void finishDataSerialization(IMergeTreeDataPart::Checksums & checksums, bool sync) override;`
polymorphic parts (development) 2019-10-21 17:23:06 +00:00
fix writing of index in compact parts 2020-04-26 21:19:25 +00:00			`protected:`
fix clang-tidy 2020-04-27 18:12:17 +00:00			`void fillIndexGranularity(size_t index_granularity_for_block, size_t rows_in_block) override;`
fix writing of index in compact parts 2020-04-26 21:19:25 +00:00
polymorphic parts (development) 2019-10-21 17:23:06 +00:00			`private:`
polymorphic parts (development) 2019-11-27 11:35:27 +00:00			`void writeBlock(const Block & block);`

fix clang-tidy 2020-09-04 15:07:17 +00:00			`void addToChecksums(MergeTreeDataPartChecksums & checksums);`
polymorphic parts (development) 2019-11-27 11:35:27 +00:00
Trying to add same logic for compact parts 2020-09-21 17:35:09 +00:00			`void addStreams(const String & name, const IDataType & type, const ASTPtr & effective_codec_desc);`

polymorphic parts (development) 2019-11-27 11:35:27 +00:00			`Block header;`
better writer for compact parts 2019-12-27 21:17:53 +00:00
better granularity computing 2019-12-27 21:32:55 +00:00			`/** Simplified SquashingTransform. The original one isn't suitable in this case`
better writer for compact parts 2019-12-27 21:17:53 +00:00			`* as it can return smaller block from buffer without merging it with larger block if last is enough size.`
			`* But in compact parts we should guarantee, that written block is larger or equals than index_granularity.`
			`*/`
			`class ColumnsBuffer`
			`{`
			`public:`
			`void add(MutableColumns && columns);`
			`size_t size() const;`
			`Columns releaseColumns();`
			`private:`
			`MutableColumns accumulated_columns;`
			`};`

			`ColumnsBuffer columns_buffer;`
support codecs in compact parts 2020-07-07 00:15:02 +00:00
Merge remote-tracking branch 'upstream/master' into HEAD 2020-09-03 14:53:05 +00:00			`/// hashing_buf -> compressed_buf -> plain_hashing -> plain_file`
support codecs in compact parts 2020-07-07 00:15:02 +00:00			`std::unique_ptr<WriteBufferFromFileBase> plain_file;`
			`HashingWriteBuffer plain_hashing;`

			`struct CompressedStream`
			`{`
Trying to add same logic for compact parts 2020-09-21 17:35:09 +00:00			`UInt64 codec_id;`
support codecs in compact parts 2020-07-07 00:15:02 +00:00			`CompressedWriteBuffer compressed_buf;`
			`HashingWriteBuffer hashing_buf;`

Trying to add same logic for compact parts 2020-09-21 17:35:09 +00:00			`CompressedStream(UInt64 codec_id_, WriteBuffer & buf, const CompressionCodecPtr & codec)`
			`: codec_id(codec_id_)`
			`, compressed_buf(buf, codec)`
			`, hashing_buf(compressed_buf) {}`
support codecs in compact parts 2020-07-07 00:15:02 +00:00			`};`

create less compressed streams while writing compact parts 2020-09-03 22:04:46 +00:00			`using CompressedStreamPtr = std::shared_ptr<CompressedStream>;`
create less compressed streams while writing compact parts 2020-09-03 22:38:17 +00:00
			`/// Create compressed stream for every different codec.`
			`std::unordered_map<UInt64, CompressedStreamPtr> streams_by_codec;`

			`/// For better performance save pointer to stream by every column.`
Trying to add same logic for compact parts 2020-09-21 17:35:09 +00:00			`std::unordered_map<String, CompressedStreamPtr> compressed_streams;`
support codecs in compact parts 2020-07-07 00:15:02 +00:00
			`/// marks -> marks_file`
			`std::unique_ptr<WriteBufferFromFileBase> marks_file;`
			`HashingWriteBuffer marks;`
create less compressed streams while writing compact parts 2020-09-03 22:04:46 +00:00
			`/// Write single granule of one column (rows between 2 marks)`
fix clang-tidy 2020-09-04 15:07:17 +00:00			`static void writeColumnSingleGranule(`
create less compressed streams while writing compact parts 2020-09-03 22:04:46 +00:00			`const ColumnWithTypeAndName & column,`
Trying to add same logic for compact parts 2020-09-21 17:35:09 +00:00			`IDataType::OutputStreamGetter stream_getter,`
create less compressed streams while writing compact parts 2020-09-03 22:04:46 +00:00			`size_t from_row,`
fix clang-tidy 2020-09-04 15:07:17 +00:00			`size_t number_of_rows);`
polymorphic parts (development) 2019-10-16 18:27:53 +00:00			`};`

polymorphic parts (development) 2019-10-21 15:33:59 +00:00			`}`