ClickHouse/src/Storages/MergeTree/MergeTreeSequentialSource.cpp

#include <Storages/MergeTree/MergeTreeSequentialSource.h>
#include <Storages/MergeTree/MergeTreeBlockReadUtils.h>
#include <Interpreters/Context.h>

namespace DB
{
namespace ErrorCodes
{
    extern const int MEMORY_LIMIT_EXCEEDED;
}

MergeTreeSequentialSource::MergeTreeSequentialSource(
    const MergeTreeData & storage_,
    MergeTreeData::DataPartPtr data_part_,
    Names columns_to_read_,
    bool read_with_direct_io_,
    bool take_column_types_from_storage,
    bool quiet)
    : SourceWithProgress(storage_.getSampleBlockForColumns(columns_to_read_))
    , storage(storage_)
    , data_part(std::move(data_part_))
    , columns_to_read(std::move(columns_to_read_))
    , read_with_direct_io(read_with_direct_io_)
    , mark_cache(storage.global_context.getMarkCache())
{
    if (!quiet)
    {
        std::stringstream message;
        message << "Reading " << data_part->getMarksCount() << " marks from part " << data_part->name
            << ", total " << data_part->rows_count
            << " rows starting from the beginning of the part";
        if (columns_to_read.size() == 1)    /// Print column name but don't pollute logs in case of many columns.
            message << ", column " << columns_to_read.front();

        LOG_TRACE(log, message.rdbuf());
    }

    addTotalRowsApprox(data_part->rows_count);

    /// Add columns because we don't want to read empty blocks
    injectRequiredColumns(storage, data_part, columns_to_read);
    NamesAndTypesList columns_for_reader;
    if (take_column_types_from_storage)
    {
        const NamesAndTypesList & physical_columns = storage.getColumns().getAllPhysical();
        columns_for_reader = physical_columns.addTypes(columns_to_read);
    }
    else
    {
        /// take columns from data_part
        columns_for_reader = data_part->getColumns().addTypes(columns_to_read);
    }

    MergeTreeReaderSettings reader_settings =
    {
        /// bytes to use AIO (this is hack)
        .min_bytes_to_use_direct_io = read_with_direct_io ? 1UL : std::numeric_limits<size_t>::max(),
        .max_read_buffer_size = DBMS_DEFAULT_BUFFER_SIZE,
        .save_marks_in_cache = false
    };

    reader = data_part->getReader(columns_for_reader,
        MarkRanges{MarkRange(0, data_part->getMarksCount())},
        /* uncompressed_cache = */ nullptr, mark_cache.get(), reader_settings);
}

Chunk MergeTreeSequentialSource::generate()
try
{
    const auto & header = getPort().getHeader();

    if (!isCancelled() && current_row < data_part->rows_count)
    {
        size_t rows_to_read = data_part->index_granularity.getMarkRows(current_mark);
        bool continue_reading = (current_mark != 0);

        const auto & sample = reader->getColumns();
        Columns columns(sample.size());
        size_t rows_read = reader->readRows(current_mark, continue_reading, rows_to_read, columns);

        if (rows_read)
        {
            current_row += rows_read;
            current_mark += (rows_to_read == rows_read);

            bool should_evaluate_missing_defaults = false;
            reader->fillMissingColumns(columns, should_evaluate_missing_defaults, rows_read);

            if (should_evaluate_missing_defaults)
            {
                reader->evaluateMissingDefaults({}, columns);
            }

            reader->performRequiredConversions(columns);

            /// Reorder columns and fill result block.
            size_t num_columns = sample.size();
            Columns res_columns;
            res_columns.reserve(num_columns);

            auto it = sample.begin();
            for (size_t i = 0; i < num_columns; ++i)
            {
                if (header.has(it->name))
                    res_columns.emplace_back(std::move(columns[i]));

                ++it;
            }

            return Chunk(std::move(res_columns), rows_read);
        }
    }
    else
    {
        finish();
    }

    return {};
}
catch (...)
{
    /// Suspicion of the broken part. A part is added to the queue for verification.
    if (getCurrentExceptionCode() != ErrorCodes::MEMORY_LIMIT_EXCEEDED)
        storage.reportBrokenPart(data_part->name);
    throw;
}

void MergeTreeSequentialSource::finish()
{
    /** Close the files (before destroying the object).
     * When many sources are created, but simultaneously reading only a few of them,
     * buffers don't waste memory.
     */
    reader.reset();
    data_part.reset();
}

MergeTreeSequentialSource::~MergeTreeSequentialSource() = default;

}
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`#include <Storages/MergeTree/MergeTreeSequentialSource.h>`
Inject default column 2018-11-28 17:21:27 +00:00			`#include <Storages/MergeTree/MergeTreeBlockReadUtils.h>`
Forward declaration for Context as much as possible. Now after changing Context.h 488 modules will be recompiled instead of 582. 2020-05-20 20:16:32 +00:00			`#include <Interpreters/Context.h>`
Missed file 2018-11-28 15:05:53 +00:00
			`namespace DB`
			`{`
			`namespace ErrorCodes`
			`{`
			`extern const int MEMORY_LIMIT_EXCEEDED;`
			`}`

Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`MergeTreeSequentialSource::MergeTreeSequentialSource(`
Missed file 2018-11-28 15:05:53 +00:00			`const MergeTreeData & storage_,`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`MergeTreeData::DataPartPtr data_part_,`
Missed file 2018-11-28 15:05:53 +00:00			`Names columns_to_read_,`
			`bool read_with_direct_io_,`
Add special logic for alter 2018-11-29 11:55:34 +00:00			`bool take_column_types_from_storage,`
Missed file 2018-11-28 15:05:53 +00:00			`bool quiet)`
Try fix tests. 2020-04-02 18:33:23 +00:00			`: SourceWithProgress(storage_.getSampleBlockForColumns(columns_to_read_))`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`, storage(storage_)`
			`, data_part(std::move(data_part_))`
			`, columns_to_read(std::move(columns_to_read_))`
Missed file 2018-11-28 15:05:53 +00:00			`, read_with_direct_io(read_with_direct_io_)`
Added some warnings from clang's -Weverything 2019-01-04 12:10:00 +00:00			`, mark_cache(storage.global_context.getMarkCache())`
Missed file 2018-11-28 15:05:53 +00:00			`{`
			`if (!quiet)`
Fixed error #4526 2019-03-02 01:05:36 +00:00			`{`
			`std::stringstream message;`
Large refactoring (only compilable) 2019-03-25 13:55:24 +00:00			`message << "Reading " << data_part->getMarksCount() << " marks from part " << data_part->name`
Fixed typo 2019-03-07 17:58:28 +00:00			`<< ", total " << data_part->rows_count`
done 2019-08-13 14:31:46 +00:00			`<< " rows starting from the beginning of the part";`
Added memory usage to AsynchronousMetrics 2020-04-17 04:09:41 +00:00			`if (columns_to_read.size() == 1) /// Print column name but don't pollute logs in case of many columns.`
			`message << ", column " << columns_to_read.front();`
Fixed error #4526 2019-03-02 01:05:36 +00:00
			`LOG_TRACE(log, message.rdbuf());`
			`}`
Missed file 2018-11-28 15:05:53 +00:00
			`addTotalRowsApprox(data_part->rows_count);`

Inject columns after creating header 2018-11-29 15:16:08 +00:00			`/// Add columns because we don't want to read empty blocks`
			`injectRequiredColumns(storage, data_part, columns_to_read);`
			`NamesAndTypesList columns_for_reader;`
Add special logic for alter 2018-11-29 11:55:34 +00:00			`if (take_column_types_from_storage)`
			`{`
			`const NamesAndTypesList & physical_columns = storage.getColumns().getAllPhysical();`
Inject column names before types 2018-11-29 12:03:58 +00:00			`columns_for_reader = physical_columns.addTypes(columns_to_read);`
Add special logic for alter 2018-11-29 11:55:34 +00:00			`}`
Inject columns after creating header 2018-11-29 15:16:08 +00:00			`else`
			`{`
			`/// take columns from data_part`
code cleanup 2020-01-16 16:15:01 +00:00			`columns_for_reader = data_part->getColumns().addTypes(columns_to_read);`
Inject columns after creating header 2018-11-29 15:16:08 +00:00			`}`
Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00
polymorphic parts (development) cleanup 2019-12-18 15:54:45 +00:00			`MergeTreeReaderSettings reader_settings =`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`{`
code cleanup 2020-01-17 12:24:27 +00:00			`/// bytes to use AIO (this is hack)`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`.min_bytes_to_use_direct_io = read_with_direct_io ? 1UL : std::numeric_limits<size_t>::max(),`
			`.max_read_buffer_size = DBMS_DEFAULT_BUFFER_SIZE,`
			`.save_marks_in_cache = false`
			`};`

polymorphic parts (development) cleanup 2019-12-18 16:41:11 +00:00			`reader = data_part->getReader(columns_for_reader,`
Large refactoring (only compilable) 2019-03-25 13:55:24 +00:00			`MarkRanges{MarkRange(0, data_part->getMarksCount())},`
polymorphic parts (development) 2019-10-10 16:30:30 +00:00			`/* uncompressed_cache = */ nullptr, mark_cache.get(), reader_settings);`
Missed file 2018-11-28 15:05:53 +00:00			`}`

Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`Chunk MergeTreeSequentialSource::generate()`
Missed file 2018-11-28 15:05:53 +00:00			`try`
			`{`
Checkpoint 2020-04-22 06:34:20 +00:00			`const auto & header = getPort().getHeader();`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00
Missed file 2018-11-28 15:05:53 +00:00			`if (!isCancelled() && current_row < data_part->rows_count)`
			`{`
Large refactoring (only compilable) 2019-03-25 13:55:24 +00:00			`size_t rows_to_read = data_part->index_granularity.getMarkRows(current_mark);`
Missed file 2018-11-28 15:05:53 +00:00			`bool continue_reading = (current_mark != 0);`

Checkpoint 2020-04-22 06:34:20 +00:00			`const auto & sample = reader->getColumns();`
Update MergeTreeDataSelectExecutor. 2019-10-01 16:50:08 +00:00			`Columns columns(sample.size());`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`size_t rows_read = reader->readRows(current_mark, continue_reading, rows_to_read, columns);`
Missed file 2018-11-28 15:05:53 +00:00
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`if (rows_read)`
Update MergeTreeDataSelectExecutor. 2019-10-01 16:50:08 +00:00			`{`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`current_row += rows_read;`
			`current_mark += (rows_to_read == rows_read);`
Rename MergeTree streams for select 2018-11-29 09:19:42 +00:00
Update MergeTreeDataSelectExecutor. 2019-10-01 16:50:08 +00:00			`bool should_evaluate_missing_defaults = false;`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`reader->fillMissingColumns(columns, should_evaluate_missing_defaults, rows_read);`
Missed file 2018-11-28 15:05:53 +00:00
Add special logic for alter 2018-11-29 11:55:34 +00:00			`if (should_evaluate_missing_defaults)`
Better nested handling 2020-01-16 14:18:09 +00:00			`{`
Fix MergeTreeRangeReader. Fix MergeTreeReader. Fix MergeTreeBaseSelectProcessor. Better exception message for TreeExecutor. Added header_without_virtual_columns to MergeTreeBaseSelectProcessor. Fix MergeTreeReverseSelectProcessor. Fix MergeTreeDataSelectExecutor. 2019-10-02 11:57:17 +00:00			`reader->evaluateMissingDefaults({}, columns);`
Better nested handling 2020-01-16 14:18:09 +00:00			`}`
Missed file 2018-11-28 15:05:53 +00:00
Not working state 2020-01-15 13:00:08 +00:00			`reader->performRequiredConversions(columns);`

Update MergeTreeDataSelectExecutor. 2019-10-01 16:50:08 +00:00			`/// Reorder columns and fill result block.`
			`size_t num_columns = sample.size();`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`Columns res_columns;`
			`res_columns.reserve(num_columns);`

Update MergeTreeDataSelectExecutor. 2019-10-01 16:50:08 +00:00			`auto it = sample.begin();`
			`for (size_t i = 0; i < num_columns; ++i)`
			`{`
Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`if (header.has(it->name))`
			`res_columns.emplace_back(std::move(columns[i]));`
Fix MergeTreeSequentialBlockInputStream. 2019-10-10 11:20:25 +00:00
Update MergeTreeDataSelectExecutor. 2019-10-01 16:50:08 +00:00			`++it;`
			`}`

Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`return Chunk(std::move(res_columns), rows_read);`
Add special logic for alter 2018-11-29 11:55:34 +00:00			`}`
Missed file 2018-11-28 15:05:53 +00:00			`}`
			`else`
			`{`
			`finish();`
			`}`

Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`return {};`
Missed file 2018-11-28 15:05:53 +00:00			`}`
			`catch (...)`
			`{`
			`/// Suspicion of the broken part. A part is added to the queue for verification.`
			`if (getCurrentExceptionCode() != ErrorCodes::MEMORY_LIMIT_EXCEEDED)`
			`storage.reportBrokenPart(data_part->name);`
			`throw;`
			`}`

Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`void MergeTreeSequentialSource::finish()`
Missed file 2018-11-28 15:05:53 +00:00			`{`
			`/** Close the files (before destroying the object).`
			`* When many sources are created, but simultaneously reading only a few of them,`
			`* buffers don't waste memory.`
			`*/`
			`reader.reset();`
			`data_part.reset();`
			`}`

Use SortedTransforms in merge. 2020-04-02 16:28:50 +00:00			`MergeTreeSequentialSource::~MergeTreeSequentialSource() = default;`
Missed file 2018-11-28 15:05:53 +00:00
			`}`