ClickHouse/src/Storages/MergeTree/MergeTreeThreadSelectProcessor.cpp

#include <Storages/MergeTree/IMergeTreeReader.h>
#include <Storages/MergeTree/MergeTreeReadPool.h>
#include <Storages/MergeTree/MergeTreeThreadSelectProcessor.h>
#include <Interpreters/Context.h>


namespace DB
{

namespace ErrorCodes
{
    extern const int LOGICAL_ERROR;
}

MergeTreeThreadSelectProcessor::MergeTreeThreadSelectProcessor(
    size_t thread_,
    const MergeTreeReadPoolPtr & pool_,
    size_t min_marks_to_read_,
    UInt64 max_block_size_rows_,
    size_t preferred_block_size_bytes_,
    size_t preferred_max_column_in_block_size_bytes_,
    const MergeTreeData & storage_,
    const StorageSnapshotPtr & storage_snapshot_,
    bool use_uncompressed_cache_,
    const PrewhereInfoPtr & prewhere_info_,
    ExpressionActionsSettings actions_settings,
    const MergeTreeReaderSettings & reader_settings_,
    const Names & virt_column_names_,
    std::optional<ParallelReadingExtension> extension_)
    :
    MergeTreeBaseSelectProcessor{
        pool_->getHeader(), storage_, storage_snapshot_, prewhere_info_, std::move(actions_settings), max_block_size_rows_,
        preferred_block_size_bytes_, preferred_max_column_in_block_size_bytes_,
        reader_settings_, use_uncompressed_cache_, virt_column_names_, extension_},
    thread{thread_},
    pool{pool_}
{
    /// round min_marks_to_read up to nearest multiple of block_size expressed in marks
    /// If granularity is adaptive it doesn't make sense
    /// Maybe it will make sense to add settings `max_block_size_bytes`
    if (max_block_size_rows && !storage.canUseAdaptiveGranularity())
    {
        size_t fixed_index_granularity = storage.getSettings()->index_granularity;
        min_marks_to_read = (min_marks_to_read_ * fixed_index_granularity + max_block_size_rows - 1)
            / max_block_size_rows * max_block_size_rows / fixed_index_granularity;
    }
    else if (extension.has_value())
    {
        /// Parallel reading from replicas is enabled.
        /// We try to estimate the average number of bytes in a granule
        /// to make one request over the network per one gigabyte of data
        /// Actually we will ask MergeTreeReadPool to provide us heavier tasks to read
        /// because the most part of each task will be postponed
        /// (due to using consistent hash for better cache affinity)
        const size_t amount_of_read_bytes_per_one_request = 1024 * 1024 * 1024; // 1GiB
        /// In case of reading from compact parts (for which we can't estimate the average size of marks)
        /// we will use this value
        const size_t empirical_size_of_mark = 1024 * 1024 * 10; // 10 MiB

        if (extension->colums_to_read.empty())
            throw Exception(ErrorCodes::LOGICAL_ERROR, "A set of column to read is empty. It is a bug");

        size_t sum_average_marks_size = 0;
        auto column_sizes = storage.getColumnSizes();
        for (const auto & name : extension->colums_to_read)
        {
            auto it = column_sizes.find(name);
            if (it == column_sizes.end())
                continue;
            auto size = it->second;

            if (size.data_compressed == 0 || size.data_uncompressed == 0 || size.marks == 0)
                continue;

            sum_average_marks_size += size.data_uncompressed / size.marks;
        }

        if (sum_average_marks_size == 0)
            sum_average_marks_size = empirical_size_of_mark * extension->colums_to_read.size();

        min_marks_to_read = extension->count_participating_replicas * amount_of_read_bytes_per_one_request / sum_average_marks_size;
    }
    else
    {
        min_marks_to_read = min_marks_to_read_;
    }


    ordered_names = getPort().getHeader().getNames();
}

/// Requests read task from MergeTreeReadPool and signals whether it got one
bool MergeTreeThreadSelectProcessor::getNewTaskImpl()
{
    task = pool->getTask(min_marks_to_read, thread, ordered_names);
    return static_cast<bool>(task);
}


void MergeTreeThreadSelectProcessor::finalizeNewTask()
{
    const std::string part_name = task->data_part->isProjectionPart() ? task->data_part->getParentPart()->name : task->data_part->name;

    /// Allows pool to reduce number of threads in case of too slow reads.
    auto profile_callback = [this](ReadBufferFromFileBase::ProfileInfo info_) { pool->profileFeedback(info_); };
    const auto & metadata_snapshot = storage_snapshot->metadata;

    IMergeTreeReader::ValueSizeMap value_size_map;

    if (!reader)
    {
        if (use_uncompressed_cache)
            owned_uncompressed_cache = storage.getContext()->getUncompressedCache();
        owned_mark_cache = storage.getContext()->getMarkCache();
    }
    else if (part_name != last_readed_part_name)
    {
        value_size_map = reader->getAvgValueSizeHints();
    }

    const bool init_new_readers = !reader || part_name != last_readed_part_name;
    if (init_new_readers)
    {
        initializeMergeTreeReadersForPart(task->data_part, task->task_columns, metadata_snapshot,
            task->mark_ranges, value_size_map, profile_callback);
    }

    last_readed_part_name = part_name;
}


void MergeTreeThreadSelectProcessor::finish()
{
    reader.reset();
    pre_reader_for_step.clear();
}


MergeTreeThreadSelectProcessor::~MergeTreeThreadSelectProcessor() = default;

}
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`#include <Storages/MergeTree/IMergeTreeReader.h>`
Moved headers and sources to same place [#CLICKHOUSE-3]. 2017-04-01 09:19:00 +00:00			`#include <Storages/MergeTree/MergeTreeReadPool.h>`
Rename some files. 2021-07-26 16:48:25 +00:00			`#include <Storages/MergeTree/MergeTreeThreadSelectProcessor.h>`
Forward declaration for Context as much as possible. Now after changing Context.h 488 modules will be recompiled instead of 582. 2020-05-20 20:16:32 +00:00			`#include <Interpreters/Context.h>`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00

			`namespace DB`
			`{`

Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`namespace ErrorCodes`
			`{`
			`extern const int LOGICAL_ERROR;`
			`}`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00
Rename some files. 2021-07-26 16:48:25 +00:00			`MergeTreeThreadSelectProcessor::MergeTreeThreadSelectProcessor(`
Fix clang-tidy warnings in Server, Storages folders 2022-03-13 12:23:51 +00:00			`size_t thread_,`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`const MergeTreeReadPoolPtr & pool_,`
Fix clang-tidy warnings in Server, Storages folders 2022-03-13 12:23:51 +00:00			`size_t min_marks_to_read_,`
			`UInt64 max_block_size_rows_,`
Added more warnings from clang's -Weverything, that are available in clang 8 2019-01-07 10:40:58 +00:00			`size_t preferred_block_size_bytes_,`
			`size_t preferred_max_column_in_block_size_bytes_,`
			`const MergeTreeData & storage_,`
dynamic subcolumns: add snapshot for storage 2021-07-09 03:15:41 +00:00			`const StorageSnapshotPtr & storage_snapshot_,`
Fix clang-tidy warnings in Server, Storages folders 2022-03-13 12:23:51 +00:00			`bool use_uncompressed_cache_,`
Added more warnings from clang's -Weverything, that are available in clang 8 2019-01-07 10:40:58 +00:00			`const PrewhereInfoPtr & prewhere_info_,`
Remove PrewhereDAGInfo. 2021-06-25 14:49:28 +00:00			`ExpressionActionsSettings actions_settings,`
polymorphic parts (development) cleanup 2019-12-18 15:54:45 +00:00			`const MergeTreeReaderSettings & reader_settings_,`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`const Names & virt_column_names_,`
			`std::optional<ParallelReadingExtension> extension_)`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`:`
Compileable getSampleBlockWithColumns in StorageInMemoryMetadata 2020-06-16 14:25:08 +00:00			`MergeTreeBaseSelectProcessor{`
Revert "Fix errors of CheckTriviallyCopyableMove type" 2022-06-07 11:53:10 +00:00			`pool_->getHeader(), storage_, storage_snapshot_, prewhere_info_, std::move(actions_settings), max_block_size_rows_,`
Added setting "min_bytes_to_use_mmap_io" (#8520) * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io" * Added setting "min_bytes_to_use_mmap_io": better error message * Added setting "min_bytes_to_use_mmap_io": fixed error 2020-01-04 05:46:50 +00:00			`preferred_block_size_bytes_, preferred_max_column_in_block_size_bytes_,`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`reader_settings_, use_uncompressed_cache_, virt_column_names_, extension_},`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`thread{thread_},`
			`pool{pool_}`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`{`
			`/// round min_marks_to_read up to nearest multiple of block_size expressed in marks`
Remove average granularity logic from code 2019-04-01 10:34:22 +00:00			`/// If granularity is adaptive it doesn't make sense`
Fix half of typos 2020-08-08 00:47:03 +00:00			/// Maybe it will make sense to add settings `max_block_size_bytes`
Mixed parts by setting 2019-06-19 14:46:06 +00:00			`if (max_block_size_rows && !storage.canUseAdaptiveGranularity())`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`{`
Remove COW and add MultiVersion 2019-08-26 14:24:29 +00:00			`size_t fixed_index_granularity = storage.getSettings()->index_granularity;`
Remove average granularity logic from code 2019-04-01 10:34:22 +00:00			`min_marks_to_read = (min_marks_to_read_ * fixed_index_granularity + max_block_size_rows - 1)`
			`/ max_block_size_rows * max_block_size_rows / fixed_index_granularity;`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`}`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`else if (extension.has_value())`
			`{`
			`/// Parallel reading from replicas is enabled.`
			`/// We try to estimate the average number of bytes in a granule`
			`/// to make one request over the network per one gigabyte of data`
			`/// Actually we will ask MergeTreeReadPool to provide us heavier tasks to read`
			`/// because the most part of each task will be postponed`
			`/// (due to using consistent hash for better cache affinity)`
			`const size_t amount_of_read_bytes_per_one_request = 1024 * 1024 * 1024; // 1GiB`
			`/// In case of reading from compact parts (for which we can't estimate the average size of marks)`
			`/// we will use this value`
			`const size_t empirical_size_of_mark = 1024 * 1024 * 10; // 10 MiB`

			`if (extension->colums_to_read.empty())`
			`throw Exception(ErrorCodes::LOGICAL_ERROR, "A set of column to read is empty. It is a bug");`

			`size_t sum_average_marks_size = 0;`
			`auto column_sizes = storage.getColumnSizes();`
			`for (const auto & name : extension->colums_to_read)`
			`{`
			`auto it = column_sizes.find(name);`
			`if (it == column_sizes.end())`
			`continue;`
			`auto size = it->second;`

			`if (size.data_compressed == 0 \|\| size.data_uncompressed == 0 \|\| size.marks == 0)`
			`continue;`

			`sum_average_marks_size += size.data_uncompressed / size.marks;`
			`}`

			`if (sum_average_marks_size == 0)`
			`sum_average_marks_size = empirical_size_of_mark * extension->colums_to_read.size();`

			`min_marks_to_read = extension->count_participating_replicas * amount_of_read_bytes_per_one_request / sum_average_marks_size;`
			`}`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`else`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`{`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`min_marks_to_read = min_marks_to_read_;`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`}`

fix build 2018-04-19 15:18:26 +00:00
Add processors to StorageMergeTree [WIP]. 2019-09-13 15:41:09 +00:00			`ordered_names = getPort().getHeader().getNames();`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00			`}`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00
			`/// Requests read task from MergeTreeReadPool and signals whether it got one`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`bool MergeTreeThreadSelectProcessor::getNewTaskImpl()`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`{`
fix build 2018-04-19 15:18:26 +00:00			`task = pool->getTask(min_marks_to_read, thread, ordered_names);`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`return static_cast<bool>(task);`
			`}`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00

Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`void MergeTreeThreadSelectProcessor::finalizeNewTask()`
			`{`
Projections TODO (suggested by Nikolai) 1. Build query plan fro current query (inside storage::read) up to WithMergableState 2. Check, that plan is simple enough: Aggregating - Expression - Filter - ReadFromStorage (or simplier) 3. Check, that filter is the same as filter in projection, and also expression calculates the same aggregation keys as in projection 4. Return WithMergableState if projection applies 3 will be easier to do with ActionsDAG, cause it sees all functions, and dependencies are direct (but it is possible with ExpressionActions also) Also need to figure out how prewhere works for projections, and row_filter_policies. wip 2021-02-10 14:12:49 +00:00			`const std::string part_name = task->data_part->isProjectionPart() ? task->data_part->getParentPart()->name : task->data_part->name;`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
Formatting [#CLICKHOUSE-2]. 2017-03-13 18:01:46 +00:00			`/// Allows pool to reduce number of threads in case of too slow reads.`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`auto profile_callback = [this](ReadBufferFromFileBase::ProfileInfo info_) { pool->profileFeedback(info_); };`
dynamic subcolumns: add snapshot for storage 2021-07-09 03:15:41 +00:00			`const auto & metadata_snapshot = storage_snapshot->metadata;`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
Cleanups 2022-07-17 18:41:17 +00:00			`IMergeTreeReader::ValueSizeMap value_size_map;`

Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`if (!reader)`
			`{`
			`if (use_uncompressed_cache)`
Replace all Context references with std::weak_ptr (#22297) * Replace all Context references with std::weak_ptr * Fix shared context captured by value * Fix build * Fix Context with named sessions * Fix copy context * Fix gcc build * Merge with master and fix build * Fix gcc-9 build 2021-04-10 23:33:54 +00:00			`owned_uncompressed_cache = storage.getContext()->getUncompressedCache();`
			`owned_mark_cache = storage.getContext()->getMarkCache();`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`}`
Cleanups 2022-07-17 18:41:17 +00:00			`else if (part_name != last_readed_part_name)`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`{`
Cleanups 2022-07-17 18:41:17 +00:00			`value_size_map = reader->getAvgValueSizeHints();`
			`}`

			`const bool init_new_readers = !reader \|\| part_name != last_readed_part_name;`
			`if (init_new_readers)`
			`{`
			`initializeMergeTreeReadersForPart(task->data_part, task->task_columns, metadata_snapshot,`
			`task->mark_ranges, value_size_map, profile_callback);`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`}`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00
in memory parts: basic read/write 2020-04-14 19:47:19 +00:00			`last_readed_part_name = part_name;`
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00			`}`
Changed tabs to spaces in code [#CLICKHOUSE-3]. 2017-04-01 07:20:54 +00:00
Parallel reading from replicas (#29279) 2021-12-09 10:39:28 +00:00
			`void MergeTreeThreadSelectProcessor::finish()`
			`{`
			`reader.reset();`
Test dirty hacks for multiple PREWHERE steps 2022-06-07 07:03:11 +00:00			`pre_reader_for_step.clear();`
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`}`


Rename some files. 2021-07-26 16:48:25 +00:00			`MergeTreeThreadSelectProcessor::~MergeTreeThreadSelectProcessor() = default;`
Avoid code duplication near MergeTreeBlockInputStream. [#CLICKHOUSE-2] Add preferred_block_size_bytes for non-uniform reader. [#CLICKHOUSE-2902] Make enums test more deterministic. [#CLICKHOUSE-2] Refactored MergeTree readers. Tabs -> spaces. Move include/DB/ -> src/. 2017-03-24 13:52:50 +00:00
Better [#METR-2944]. 2016-11-20 12:43:20 +00:00			`}`