ClickHouse/dbms/src/Storages/MergeTree/MergeTreeThreadSelectBlockInputStream.cpp

#include <Storages/MergeTree/IMergeTreeReader.h>
#include <Storages/MergeTree/MergeTreeReadPool.h>
#include <Storages/MergeTree/MergeTreeThreadSelectBlockInputStream.h>


namespace DB
{


MergeTreeThreadSelectBlockInputStream::MergeTreeThreadSelectBlockInputStream(
    const size_t thread_,
    const MergeTreeReadPoolPtr & pool_,
    const size_t min_marks_to_read_,
    const UInt64 max_block_size_rows_,
    size_t preferred_block_size_bytes_,
    size_t preferred_max_column_in_block_size_bytes_,
    const MergeTreeData & storage_,
    const bool use_uncompressed_cache_,
    const PrewhereInfoPtr & prewhere_info_,
    const ReaderSettings & reader_settings_,
    const Names & virt_column_names_)
    :
    MergeTreeBaseSelectBlockInputStream{storage_, prewhere_info_, max_block_size_rows_,
        preferred_block_size_bytes_, preferred_max_column_in_block_size_bytes_,
        reader_settings_, use_uncompressed_cache_, virt_column_names_},
    thread{thread_},
    pool{pool_}
{
    /// round min_marks_to_read up to nearest multiple of block_size expressed in marks
    /// If granularity is adaptive it doesn't make sense
    /// Maybe it will make sence to add settings `max_block_size_bytes`
    if (max_block_size_rows && !storage.canUseAdaptiveGranularity())
    {
        size_t fixed_index_granularity = storage.getSettings()->index_granularity;
        min_marks_to_read = (min_marks_to_read_ * fixed_index_granularity + max_block_size_rows - 1)
            / max_block_size_rows * max_block_size_rows / fixed_index_granularity;
    }
    else
        min_marks_to_read = min_marks_to_read_;

    ordered_names = getHeader().getNames();
}


Block MergeTreeThreadSelectBlockInputStream::getHeader() const
{
    auto res = pool->getHeader();
    executePrewhereActions(res, prewhere_info);
    injectVirtualColumns(res);
    return res;
}


/// Requests read task from MergeTreeReadPool and signals whether it got one
bool MergeTreeThreadSelectBlockInputStream::getNewTask()
{
    task = pool->getTask(min_marks_to_read, thread, ordered_names);

    if (!task)
    {
        /** Close the files (before destroying the object).
          * When many sources are created, but simultaneously reading only a few of them,
          * buffers don't waste memory.
          */
        reader.reset();
        pre_reader.reset();
        return false;
    }

    const std::string path = task->data_part->getFullPath();

    /// Allows pool to reduce number of threads in case of too slow reads.
    auto profile_callback = [this](ReadBufferFromFileBase::ProfileInfo info_) { pool->profileFeedback(info_); };

    if (!reader)
    {
        auto rest_mark_ranges = pool->getRestMarks(*task->data_part, task->mark_ranges[0]);

        if (use_uncompressed_cache)
            owned_uncompressed_cache = storage.global_context.getUncompressedCache();
        owned_mark_cache = storage.global_context.getMarkCache();

        reader = task->data_part->getReader(task->columns, rest_mark_ranges,
            owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,
            IMergeTreeReader::ValueSizeMap{}, profile_callback);

        if (prewhere_info)
            pre_reader = task->data_part->getReader(task->pre_columns, rest_mark_ranges,
                owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,
                IMergeTreeReader::ValueSizeMap{}, profile_callback);
    }
    else
    {
        /// in other case we can reuse readers, anyway they will be "seeked" to required mark
        if (path != last_readed_part_path)
        {
            auto rest_mark_ranges = pool->getRestMarks(*task->data_part, task->mark_ranges[0]);
            /// retain avg_value_size_hints
            reader = task->data_part->getReader(task->columns, rest_mark_ranges,
                owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,
                reader->getAvgValueSizeHints(), profile_callback);

            if (prewhere_info)
                pre_reader = task->data_part->getReader(task->pre_columns, rest_mark_ranges,
                owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,
                reader->getAvgValueSizeHints(), profile_callback);
        }
    }

    last_readed_part_path = path;

    return true;
}


MergeTreeThreadSelectBlockInputStream::~MergeTreeThreadSelectBlockInputStream() = default;

}
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`#include <Storages/MergeTree/IMergeTreeReader.h>`
Moved headers and sources to same place [#CLICKHOUSE-3]. 2017-04-01 09:19:00 +00:00			`#include <Storages/MergeTree/MergeTreeReadPool.h>`
Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00			`#include <Storages/MergeTree/MergeTreeThreadSelectBlockInputStream.h>`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00

			`namespace DB`
			`{`


Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00			`MergeTreeThreadSelectBlockInputStream::MergeTreeThreadSelectBlockInputStream(`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`const size_t thread_,`
			`const MergeTreeReadPoolPtr & pool_,`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`const size_t min_marks_to_read_,`
Updated test #4246 2019-02-10 16:55:12 +00:00			`const UInt64 max_block_size_rows_,`
Added more warnings from clang's -Weverything, that are available in clang 8 2019-01-07 10:40:58 +00:00			`size_t preferred_block_size_bytes_,`
			`size_t preferred_max_column_in_block_size_bytes_,`
			`const MergeTreeData & storage_,`
			`const bool use_uncompressed_cache_,`
			`const PrewhereInfoPtr & prewhere_info_,`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`const ReaderSettings & reader_settings_,`
Added more warnings from clang's -Weverything, that are available in clang 8 2019-01-07 10:40:58 +00:00			`const Names & virt_column_names_)`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`:`
Added more warnings from clang's -Weverything, that are available in clang 8 2019-01-07 10:40:58 +00:00			`MergeTreeBaseSelectBlockInputStream{storage_, prewhere_info_, max_block_size_rows_,`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`preferred_block_size_bytes_, preferred_max_column_in_block_size_bytes_,`
			`reader_settings_, use_uncompressed_cache_, virt_column_names_},`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`thread{thread_},`
			`pool{pool_}`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`{`
			`/// round min_marks_to_read up to nearest multiple of block_size expressed in marks`
Remove average granularity logic from code 2019-04-01 10:34:22 +00:00			`/// If granularity is adaptive it doesn't make sense`
			/// Maybe it will make sence to add settings `max_block_size_bytes`
Mixed parts by setting 2019-06-19 14:46:06 +00:00			`if (max_block_size_rows && !storage.canUseAdaptiveGranularity())`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`{`
Remove COW and add MultiVersion 2019-08-26 14:24:29 +00:00			`size_t fixed_index_granularity = storage.getSettings()->index_granularity;`
Remove average granularity logic from code 2019-04-01 10:34:22 +00:00			`min_marks_to_read = (min_marks_to_read_ * fixed_index_granularity + max_block_size_rows - 1)`
			`/ max_block_size_rows * max_block_size_rows / fixed_index_granularity;`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`}`
			`else`
			`min_marks_to_read = min_marks_to_read_;`
fix build 2018-04-19 15:18:26 +00:00
			`ordered_names = getHeader().getNames();`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`}`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00

Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00			`Block MergeTreeThreadSelectBlockInputStream::getHeader() const`
Added method "getHeader" in IBlockInputStream [#CLICKHOUSE-2] 2018-01-09 01:51:08 +00:00			`{`
Added method "getHeader" in IBlockOutputStream: development [#CLICKHOUSE-2] 2018-02-19 03:56:08 +00:00			`auto res = pool->getHeader();`
fix test [#CLICKHOUSE-3694] #2156 2018-04-16 12:21:36 +00:00			`executePrewhereActions(res, prewhere_info);`
Fix test. 2018-09-07 20:23:28 +00:00			`injectVirtualColumns(res);`
Added method "getHeader" in IBlockOutputStream: development [#CLICKHOUSE-2] 2018-02-19 03:56:08 +00:00			`return res;`
Preparation for extra warnings [#CLICKHOUSE-2] 2018-08-10 04:02:56 +00:00			`}`
Added method "getHeader" in IBlockInputStream [#CLICKHOUSE-2] 2018-01-09 01:51:08 +00:00

Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`/// Requests read task from MergeTreeReadPool and signals whether it got one`
Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00			`bool MergeTreeThreadSelectBlockInputStream::getNewTask()`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`{`
fix build 2018-04-19 15:18:26 +00:00			`task = pool->getTask(min_marks_to_read, thread, ordered_names);`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
			`if (!task)`
			`{`
			`/** Close the files (before destroying the object).`
			`* When many sources are created, but simultaneously reading only a few of them,`
			`* buffers don't waste memory.`
			`*/`
Split base and derived class implementations. [#CLICKHOUSE-2902] 2017-04-06 17:21:45 +00:00			`reader.reset();`
			`pre_reader.reset();`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00			`return false;`
			`}`

Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`const std::string path = task->data_part->getFullPath();`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
			`/// Allows pool to reduce number of threads in case of too slow reads.`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`auto profile_callback = [this](ReadBufferFromFileBase::ProfileInfo info_) { pool->profileFeedback(info_); };`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
			`if (!reader)`
			`{`
Lowered CPU overhead for small data parts 2019-06-16 20:42:03 +00:00			`auto rest_mark_ranges = pool->getRestMarks(*task->data_part, task->mark_ranges[0]);`
CLICKHOUSE-2211: Fix aio reading (with correct buffer size), reduce MergeTreeReader creation and add useless test 2018-10-17 14:56:15 +00:00
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00			`if (use_uncompressed_cache)`
Added some warnings from clang's -Weverything 2019-01-04 12:10:00 +00:00			`owned_uncompressed_cache = storage.global_context.getUncompressedCache();`
			`owned_mark_cache = storage.global_context.getMarkCache();`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`reader = task->data_part->getReader(task->columns, rest_mark_ranges,`
			`owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,`
			`IMergeTreeReader::ValueSizeMap{}, profile_callback);`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
added PrewhereInfo [#CLICKHOUSE-3694] #2156 2018-04-11 14:31:54 +00:00			`if (prewhere_info)`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`pre_reader = task->data_part->getReader(task->pre_columns, rest_mark_ranges,`
			`owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,`
			`IMergeTreeReader::ValueSizeMap{}, profile_callback);`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00			`}`
			`else`
			`{`
CLICKHOUSE-2211: Fix aio reading (with correct buffer size), reduce MergeTreeReader creation and add useless test 2018-10-17 14:56:15 +00:00			`/// in other case we can reuse readers, anyway they will be "seeked" to required mark`
			`if (path != last_readed_part_path)`
CLICKHOUSE-3943: Style 2018-10-03 17:12:38 +00:00			`{`
Lowered CPU overhead for small data parts 2019-06-16 20:42:03 +00:00			`auto rest_mark_ranges = pool->getRestMarks(*task->data_part, task->mark_ranges[0]);`
[WIP] CLICKHOUSE-3943: Store last_readed_mark in MergeTreeThreadBlockInputStream and don't recreate reader if it stopped in appropriate position 2018-10-03 17:10:23 +00:00			`/// retain avg_value_size_hints`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`reader = task->data_part->getReader(task->columns, rest_mark_ranges,`
			`owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,`
[WIP] CLICKHOUSE-3943: Store last_readed_mark in MergeTreeThreadBlockInputStream and don't recreate reader if it stopped in appropriate position 2018-10-03 17:10:23 +00:00			`reader->getAvgValueSizeHints(), profile_callback);`

			`if (prewhere_info)`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`pre_reader = task->data_part->getReader(task->pre_columns, rest_mark_ranges,`
			`owned_uncompressed_cache.get(), owned_mark_cache.get(), reader_settings,`
			`reader->getAvgValueSizeHints(), profile_callback);`
[WIP] CLICKHOUSE-3943: Store last_readed_mark in MergeTreeThreadBlockInputStream and don't recreate reader if it stopped in appropriate position 2018-10-03 17:10:23 +00:00			`}`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00			`}`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00
CLICKHOUSE-3943: Change naming 2018-10-04 08:52:56 +00:00			`last_readed_part_path = path;`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
			`return true;`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`}`


Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00			`MergeTreeThreadSelectBlockInputStream::~MergeTreeThreadSelectBlockInputStream() = default;`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`}`