support prewhere, row_filter, read_in_order and decent projection selection

TODO set index analysis in projection
2024-09-25 03:00:49 +00:00 · 2021-05-02 21:38:19 +08:00 · 2021-05-02 21:38:19 +08:00 · 9c069ebdbf
commit 9c069ebdbf
parent f7f949c1f9
11 changed files with 1365 additions and 1061 deletions
--- a/src/Interpreters/InterpreterSelectQuery.cpp
+++ b/src/Interpreters/InterpreterSelectQuery.cpp
@ -477,6 +477,11 @@ InterpreterSelectQuery::InterpreterSelectQuery(
                }
            }
            addPrewhereAliasActions();
            query_info.syntax_analyzer_result = syntax_analyzer_result;
            query_info.required_columns = required_columns;
            source_header = metadata_snapshot->getSampleBlockForColumns(required_columns, storage->getVirtuals(), storage->getStorageID());
        }
@ -589,6 +594,7 @@ Block InterpreterSelectQuery::getSampleBlockImpl()
    {
        from_stage = storage->getQueryProcessingStage(context, options.to_stage, metadata_snapshot, query_info);
        /// TODO how can we make IN index work if we cache parts before selecting a projection?
        /// XXX Used for IN set index analysis. Is this a proper way?
        if (query_info.projection)
            metadata_snapshot->selected_projection = query_info.projection->desc;
@ -1043,7 +1049,10 @@ void InterpreterSelectQuery::executeImpl(QueryPlan & query_plan, const BlockInpu
                && !expressions.has_window)
            {
                if (expressions.has_order_by)
-                    executeOrder(query_plan, query_info.input_order_info);
+                    executeOrder(
                        query_plan,
                        query_info.input_order_info ? query_info.input_order_info
                                                    : (query_info.projection ? query_info.projection->input_order_info : nullptr));
                if (expressions.has_order_by && query.limitLength())
                    executeDistinct(query_plan, false, expressions.selected_columns, true);
@ -1169,9 +1178,24 @@ void InterpreterSelectQuery::executeImpl(QueryPlan & query_plan, const BlockInpu
            if (expressions.need_aggregate)
            {
-                executeAggregation(query_plan, expressions.before_aggregation, aggregate_overflow_row, aggregate_final, query_info.input_order_info);
+                if (query_info.projection)
-                /// We need to reset input order info, so that executeOrder can't use  it
+                {
-                query_info.input_order_info.reset();
+                    executeAggregation(
                        query_plan,
                        expressions.before_aggregation,
                        aggregate_overflow_row,
                        aggregate_final,
                        query_info.projection->input_order_info);
                    /// We need to reset input order info, so that executeOrder can't use  it
                    query_info.projection->input_order_info.reset();
                }
                else
                {
                    executeAggregation(
                        query_plan, expressions.before_aggregation, aggregate_overflow_row, aggregate_final, query_info.input_order_info);
                    /// We need to reset input order info, so that executeOrder can't use  it
                    query_info.input_order_info.reset();
                }
            }
            // Now we must execute:
@ -1301,7 +1325,10 @@ void InterpreterSelectQuery::executeImpl(QueryPlan & query_plan, const BlockInpu
                else if (!expressions.first_stage && !expressions.need_aggregate && !(query.group_by_with_totals && !aggregate_final))
                    executeMergeSorted(query_plan, "for ORDER BY");
                else    /// Otherwise, just sort.
-                    executeOrder(query_plan, query_info.input_order_info);
+                    executeOrder(
                        query_plan,
                        query_info.input_order_info ? query_info.input_order_info
                                                    : (query_info.projection ? query_info.projection->input_order_info : nullptr));
            }
            /** Optimization - if there are several sources and there is LIMIT, then first apply the preliminary LIMIT,
@ -1485,13 +1512,168 @@ void InterpreterSelectQuery::addEmptySourceToQueryPlan(
    query_plan.addStep(std::move(read_from_pipe));
 }
 void InterpreterSelectQuery::addPrewhereAliasActions()
 {
    auto & prewhere_info = analysis_result.prewhere_info;
    auto & columns_to_remove_after_prewhere = analysis_result.columns_to_remove_after_prewhere;
    /// Detect, if ALIAS columns are required for query execution
    auto alias_columns_required = false;
    const ColumnsDescription & storage_columns = metadata_snapshot->getColumns();
    for (const auto & column_name : required_columns)
    {
        auto column_default = storage_columns.getDefault(column_name);
        if (column_default && column_default->kind == ColumnDefaultKind::Alias)
        {
            alias_columns_required = true;
            break;
        }
    }
    /// There are multiple sources of required columns:
    ///  - raw required columns,
    ///  - columns deduced from ALIAS columns,
    ///  - raw required columns from PREWHERE,
    ///  - columns deduced from ALIAS columns from PREWHERE.
    /// PREWHERE is a special case, since we need to resolve it and pass directly to `IStorage::read()`
    /// before any other executions.
    if (alias_columns_required)
    {
        NameSet required_columns_from_prewhere; /// Set of all (including ALIAS) required columns for PREWHERE
        NameSet required_aliases_from_prewhere; /// Set of ALIAS required columns for PREWHERE
        if (prewhere_info)
        {
            /// Get some columns directly from PREWHERE expression actions
            auto prewhere_required_columns = prewhere_info->prewhere_actions->getRequiredColumns().getNames();
            required_columns_from_prewhere.insert(prewhere_required_columns.begin(), prewhere_required_columns.end());
            if (prewhere_info->row_level_filter_actions)
            {
                auto row_level_required_columns = prewhere_info->row_level_filter_actions->getRequiredColumns().getNames();
                required_columns_from_prewhere.insert(row_level_required_columns.begin(), row_level_required_columns.end());
            }
        }
        /// Expression, that contains all raw required columns
        ASTPtr required_columns_all_expr = std::make_shared<ASTExpressionList>();
        /// Expression, that contains raw required columns for PREWHERE
        ASTPtr required_columns_from_prewhere_expr = std::make_shared<ASTExpressionList>();
        /// Sort out already known required columns between expressions,
        /// also populate `required_aliases_from_prewhere`.
        for (const auto & column : required_columns)
        {
            ASTPtr column_expr;
            const auto column_default = storage_columns.getDefault(column);
            bool is_alias = column_default && column_default->kind == ColumnDefaultKind::Alias;
            if (is_alias)
            {
                auto column_decl = storage_columns.get(column);
                column_expr = column_default->expression->clone();
                // recursive visit for alias to alias
                replaceAliasColumnsInQuery(
                    column_expr, metadata_snapshot->getColumns(), syntax_analyzer_result->getArrayJoinSourceNameSet(), context);
                column_expr = addTypeConversionToAST(
                    std::move(column_expr), column_decl.type->getName(), metadata_snapshot->getColumns().getAll(), context);
                column_expr = setAlias(column_expr, column);
            }
            else
                column_expr = std::make_shared<ASTIdentifier>(column);
            if (required_columns_from_prewhere.count(column))
            {
                required_columns_from_prewhere_expr->children.emplace_back(std::move(column_expr));
                if (is_alias)
                    required_aliases_from_prewhere.insert(column);
            }
            else
                required_columns_all_expr->children.emplace_back(std::move(column_expr));
        }
        /// Columns, which we will get after prewhere and filter executions.
        NamesAndTypesList required_columns_after_prewhere;
        NameSet required_columns_after_prewhere_set;
        /// Collect required columns from prewhere expression actions.
        if (prewhere_info)
        {
            NameSet columns_to_remove(columns_to_remove_after_prewhere.begin(), columns_to_remove_after_prewhere.end());
            Block prewhere_actions_result = prewhere_info->prewhere_actions->getResultColumns();
            /// Populate required columns with the columns, added by PREWHERE actions and not removed afterwards.
            /// XXX: looks hacky that we already know which columns after PREWHERE we won't need for sure.
            for (const auto & column : prewhere_actions_result)
            {
                if (prewhere_info->remove_prewhere_column && column.name == prewhere_info->prewhere_column_name)
                    continue;
                if (columns_to_remove.count(column.name))
                    continue;
                required_columns_all_expr->children.emplace_back(std::make_shared<ASTIdentifier>(column.name));
                required_columns_after_prewhere.emplace_back(column.name, column.type);
            }
            required_columns_after_prewhere_set
                = ext::map<NameSet>(required_columns_after_prewhere, [](const auto & it) { return it.name; });
        }
        auto syntax_result
            = TreeRewriter(context).analyze(required_columns_all_expr, required_columns_after_prewhere, storage, metadata_snapshot);
        alias_actions = ExpressionAnalyzer(required_columns_all_expr, syntax_result, context).getActionsDAG(true);
        /// The set of required columns could be added as a result of adding an action to calculate ALIAS.
        required_columns = alias_actions->getRequiredColumns().getNames();
        /// Do not remove prewhere filter if it is a column which is used as alias.
        if (prewhere_info && prewhere_info->remove_prewhere_column)
            if (required_columns.end() != std::find(required_columns.begin(), required_columns.end(), prewhere_info->prewhere_column_name))
                prewhere_info->remove_prewhere_column = false;
        /// Remove columns which will be added by prewhere.
        required_columns.erase(
            std::remove_if(
                required_columns.begin(),
                required_columns.end(),
                [&](const String & name) { return required_columns_after_prewhere_set.count(name) != 0; }),
            required_columns.end());
        if (prewhere_info)
        {
            /// Don't remove columns which are needed to be aliased.
            for (const auto & name : required_columns)
                prewhere_info->prewhere_actions->tryRestoreColumn(name);
            auto analyzed_result
                = TreeRewriter(context).analyze(required_columns_from_prewhere_expr, metadata_snapshot->getColumns().getAllPhysical());
            prewhere_info->alias_actions
                = ExpressionAnalyzer(required_columns_from_prewhere_expr, analyzed_result, context).getActionsDAG(true, false);
            /// Add (physical?) columns required by alias actions.
            auto required_columns_from_alias = prewhere_info->alias_actions->getRequiredColumns();
            Block prewhere_actions_result = prewhere_info->prewhere_actions->getResultColumns();
            for (auto & column : required_columns_from_alias)
                if (!prewhere_actions_result.has(column.name))
                    if (required_columns.end() == std::find(required_columns.begin(), required_columns.end(), column.name))
                        required_columns.push_back(column.name);
            /// Add physical columns required by prewhere actions.
            for (const auto & column : required_columns_from_prewhere)
                if (required_aliases_from_prewhere.count(column) == 0)
                    if (required_columns.end() == std::find(required_columns.begin(), required_columns.end(), column))
                        required_columns.push_back(column);
        }
    }
 }
 void InterpreterSelectQuery::executeFetchColumns(QueryProcessingStage::Enum processing_stage, QueryPlan & query_plan)
 {
    auto & query = getSelectQuery();
    const Settings & settings = context->getSettingsRef();
    auto & expressions = analysis_result;
    auto & prewhere_info = expressions.prewhere_info;
    auto & columns_to_remove_after_prewhere = expressions.columns_to_remove_after_prewhere;
    /// Optimization for trivial query like SELECT count() FROM table.
    bool optimize_trivial_count =
@ -1560,160 +1742,6 @@ void InterpreterSelectQuery::executeFetchColumns(QueryProcessingStage::Enum proc
        }
    }
    /// Actions to calculate ALIAS if required.
    ActionsDAGPtr alias_actions;
    if (storage)
    {
        /// Detect, if ALIAS columns are required for query execution
        auto alias_columns_required = false;
        const ColumnsDescription & storage_columns = metadata_snapshot->getColumns();
        for (const auto & column_name : required_columns)
        {
            auto column_default = storage_columns.getDefault(column_name);
            if (column_default && column_default->kind == ColumnDefaultKind::Alias)
            {
                alias_columns_required = true;
                break;
            }
        }
        /// There are multiple sources of required columns:
        ///  - raw required columns,
        ///  - columns deduced from ALIAS columns,
        ///  - raw required columns from PREWHERE,
        ///  - columns deduced from ALIAS columns from PREWHERE.
        /// PREWHERE is a special case, since we need to resolve it and pass directly to `IStorage::read()`
        /// before any other executions.
        if (alias_columns_required)
        {
            NameSet required_columns_from_prewhere; /// Set of all (including ALIAS) required columns for PREWHERE
            NameSet required_aliases_from_prewhere; /// Set of ALIAS required columns for PREWHERE
            if (prewhere_info)
            {
                /// Get some columns directly from PREWHERE expression actions
                auto prewhere_required_columns = prewhere_info->prewhere_actions->getRequiredColumns().getNames();
                required_columns_from_prewhere.insert(prewhere_required_columns.begin(), prewhere_required_columns.end());
                if (prewhere_info->row_level_filter_actions)
                {
                    auto row_level_required_columns = prewhere_info->row_level_filter_actions->getRequiredColumns().getNames();
                    required_columns_from_prewhere.insert(row_level_required_columns.begin(), row_level_required_columns.end());
                }
            }
            /// Expression, that contains all raw required columns
            ASTPtr required_columns_all_expr = std::make_shared<ASTExpressionList>();
            /// Expression, that contains raw required columns for PREWHERE
            ASTPtr required_columns_from_prewhere_expr = std::make_shared<ASTExpressionList>();
            /// Sort out already known required columns between expressions,
            /// also populate `required_aliases_from_prewhere`.
            for (const auto & column : required_columns)
            {
                ASTPtr column_expr;
                const auto column_default = storage_columns.getDefault(column);
                bool is_alias = column_default && column_default->kind == ColumnDefaultKind::Alias;
                if (is_alias)
                {
                    auto column_decl = storage_columns.get(column);
                    column_expr = column_default->expression->clone();
                    // recursive visit for alias to alias
                    replaceAliasColumnsInQuery(column_expr, metadata_snapshot->getColumns(), syntax_analyzer_result->getArrayJoinSourceNameSet(), context);
                    column_expr = addTypeConversionToAST(std::move(column_expr), column_decl.type->getName(), metadata_snapshot->getColumns().getAll(), context);
                    column_expr = setAlias(column_expr, column);
                }
                else
                    column_expr = std::make_shared<ASTIdentifier>(column);
                if (required_columns_from_prewhere.count(column))
                {
                    required_columns_from_prewhere_expr->children.emplace_back(std::move(column_expr));
                    if (is_alias)
                        required_aliases_from_prewhere.insert(column);
                }
                else
                    required_columns_all_expr->children.emplace_back(std::move(column_expr));
            }
            /// Columns, which we will get after prewhere and filter executions.
            NamesAndTypesList required_columns_after_prewhere;
            NameSet required_columns_after_prewhere_set;
            /// Collect required columns from prewhere expression actions.
            if (prewhere_info)
            {
                NameSet columns_to_remove(columns_to_remove_after_prewhere.begin(), columns_to_remove_after_prewhere.end());
                Block prewhere_actions_result = prewhere_info->prewhere_actions->getResultColumns();
                /// Populate required columns with the columns, added by PREWHERE actions and not removed afterwards.
                /// XXX: looks hacky that we already know which columns after PREWHERE we won't need for sure.
                for (const auto & column : prewhere_actions_result)
                {
                    if (prewhere_info->remove_prewhere_column && column.name == prewhere_info->prewhere_column_name)
                        continue;
                    if (columns_to_remove.count(column.name))
                        continue;
                    required_columns_all_expr->children.emplace_back(std::make_shared<ASTIdentifier>(column.name));
                    required_columns_after_prewhere.emplace_back(column.name, column.type);
                }
                required_columns_after_prewhere_set
                    = ext::map<NameSet>(required_columns_after_prewhere, [](const auto & it) { return it.name; });
            }
            auto syntax_result = TreeRewriter(context).analyze(required_columns_all_expr, required_columns_after_prewhere, storage, metadata_snapshot);
            alias_actions = ExpressionAnalyzer(required_columns_all_expr, syntax_result, context).getActionsDAG(true);
            /// The set of required columns could be added as a result of adding an action to calculate ALIAS.
            required_columns = alias_actions->getRequiredColumns().getNames();
            /// Do not remove prewhere filter if it is a column which is used as alias.
            if (prewhere_info && prewhere_info->remove_prewhere_column)
                if (required_columns.end()
                    != std::find(required_columns.begin(), required_columns.end(), prewhere_info->prewhere_column_name))
                    prewhere_info->remove_prewhere_column = false;
            /// Remove columns which will be added by prewhere.
            required_columns.erase(std::remove_if(required_columns.begin(), required_columns.end(), [&](const String & name)
            {
                return required_columns_after_prewhere_set.count(name) != 0;
            }), required_columns.end());
            if (prewhere_info)
            {
                /// Don't remove columns which are needed to be aliased.
                for (const auto & name : required_columns)
                    prewhere_info->prewhere_actions->tryRestoreColumn(name);
                auto analyzed_result
                    = TreeRewriter(context).analyze(required_columns_from_prewhere_expr, metadata_snapshot->getColumns().getAllPhysical());
                prewhere_info->alias_actions
                    = ExpressionAnalyzer(required_columns_from_prewhere_expr, analyzed_result, context).getActionsDAG(true, false);
                /// Add (physical?) columns required by alias actions.
                auto required_columns_from_alias = prewhere_info->alias_actions->getRequiredColumns();
                Block prewhere_actions_result = prewhere_info->prewhere_actions->getResultColumns();
                for (auto & column : required_columns_from_alias)
                    if (!prewhere_actions_result.has(column.name))
                        if (required_columns.end() == std::find(required_columns.begin(), required_columns.end(), column.name))
                            required_columns.push_back(column.name);
                /// Add physical columns required by prewhere actions.
                for (const auto & column : required_columns_from_prewhere)
                    if (required_aliases_from_prewhere.count(column) == 0)
                        if (required_columns.end() == std::find(required_columns.begin(), required_columns.end(), column))
                            required_columns.push_back(column);
            }
        }
    }
    /// Limitation on the number of columns to read.
    /// It's not applied in 'only_analyze' mode, because the query could be analyzed without removal of unnecessary columns.
    if (!options.only_analyze && settings.max_columns_to_read && required_columns.size() > settings.max_columns_to_read)
@ -1804,9 +1832,10 @@ void InterpreterSelectQuery::executeFetchColumns(QueryProcessingStage::Enum proc
        if (max_streams > 1 && !is_remote)
            max_streams *= settings.max_streams_to_max_threads_ratio;
-        query_info.syntax_analyzer_result = syntax_analyzer_result;
+        // TODO figure out how to make set for projections
        query_info.sets = query_analyzer->getPreparedSets();
        auto actions_settings = ExpressionActionsSettings::fromContext(context);
        auto & prewhere_info = analysis_result.prewhere_info;
        if (prewhere_info)
        {
@ -1828,20 +1857,46 @@ void InterpreterSelectQuery::executeFetchColumns(QueryProcessingStage::Enum proc
        /// Create optimizer with prepared actions.
        /// Maybe we will need to calc input_order_info later, e.g. while reading from StorageMerge.
-        if ((analysis_result.optimize_read_in_order || analysis_result.optimize_aggregation_in_order) && !query_info.projection)
+        if ((analysis_result.optimize_read_in_order || analysis_result.optimize_aggregation_in_order)
            && (!query_info.projection || query_info.projection->complete))
        {
            if (analysis_result.optimize_read_in_order)
-                query_info.order_optimizer = std::make_shared<ReadInOrderOptimizer>(
+            {
-                    analysis_result.order_by_elements_actions,
+                if (query_info.projection)
-                    getSortDescription(query, context),
+                {
-                    query_info.syntax_analyzer_result);
+                    query_info.projection->order_optimizer = std::make_shared<ReadInOrderOptimizer>(
                        // TODO Do we need a projection variant for this field?
                        analysis_result.order_by_elements_actions,
                        getSortDescription(query, context),
                        query_info.syntax_analyzer_result);
                }
                else
                {
                    query_info.order_optimizer = std::make_shared<ReadInOrderOptimizer>(
                        analysis_result.order_by_elements_actions, getSortDescription(query, context), query_info.syntax_analyzer_result);
                }
            }
            else
-                query_info.order_optimizer = std::make_shared<ReadInOrderOptimizer>(
+            {
-                    analysis_result.group_by_elements_actions,
+                if (query_info.projection)
-                    getSortDescriptionFromGroupBy(query),
+                {
-                    query_info.syntax_analyzer_result);
+                    query_info.projection->order_optimizer = std::make_shared<ReadInOrderOptimizer>(
                        query_info.projection->group_by_elements_actions,
                        getSortDescriptionFromGroupBy(query),
                        query_info.syntax_analyzer_result);
                }
                else
                {
                    query_info.order_optimizer = std::make_shared<ReadInOrderOptimizer>(
                        analysis_result.group_by_elements_actions, getSortDescriptionFromGroupBy(query), query_info.syntax_analyzer_result);
                }
            }
-            query_info.input_order_info = query_info.order_optimizer->getInputOrder(metadata_snapshot, context);
+            if (query_info.projection)
                query_info.projection->input_order_info
                    = query_info.projection->order_optimizer->getInputOrder(query_info.projection->desc->metadata, context);
            else
                query_info.input_order_info = query_info.order_optimizer->getInputOrder(metadata_snapshot, context);
        }
        StreamLocalLimits limits;
@ -2504,8 +2559,11 @@ void InterpreterSelectQuery::executeExtremes(QueryPlan & query_plan)
 void InterpreterSelectQuery::executeSubqueriesInSetsAndJoins(QueryPlan & query_plan, SubqueriesForSets & subqueries_for_sets)
 {
-    if (query_info.input_order_info)
+    const auto & input_order_info = query_info.input_order_info
-        executeMergeSorted(query_plan, query_info.input_order_info->order_key_prefix_descr, 0, "before creating sets for subqueries and joins");
+        ? query_info.input_order_info
        : (query_info.projection ? query_info.projection->input_order_info : nullptr);
    if (input_order_info)
        executeMergeSorted(query_plan, input_order_info->order_key_prefix_descr, 0, "before creating sets for subqueries and joins");
    const Settings & settings = context->getSettingsRef();
--- a/src/Interpreters/InterpreterSelectQuery.h
+++ b/src/Interpreters/InterpreterSelectQuery.h
@ -117,6 +117,8 @@ private:
    ASTSelectQuery & getSelectQuery() { return query_ptr->as<ASTSelectQuery &>(); }
    void addPrewhereAliasActions();
    Block getSampleBlockImpl();
    void executeImpl(QueryPlan & query_plan, const BlockInputStreamPtr & prepared_input, std::optional<Pipe> prepared_pipe);
@ -183,6 +185,9 @@ private:
    /// Structure of query source (table, subquery, etc).
    Block source_header;
    /// Actions to calculate ALIAS if required.
    ActionsDAGPtr alias_actions;
    /// The subquery interpreter, if the subquery
    std::unique_ptr<InterpreterSelectWithUnionQuery> interpreter_subquery;
--- a/src/Storages/MergeTree/MergeTreeData.cpp
+++ b/src/Storages/MergeTree/MergeTreeData.cpp
@ -33,7 +33,6 @@
 #include <Processors/Formats/InputStreamFromInputFormat.h>
 #include <Storages/AlterCommands.h>
 #include <Storages/MergeTree/MergeTreeData.h>
 #include <Storages/MergeTree/MergeTreeDataUtils.h>
 #include <Storages/MergeTree/MergeTreeDataPartCompact.h>
 #include <Storages/MergeTree/MergeTreeDataPartInMemory.h>
 #include <Storages/MergeTree/MergeTreeDataPartWide.h>
@ -3800,6 +3799,358 @@ bool MergeTreeData::mayBenefitFromIndexForIn(
    }
 }
 using PartitionIdToMaxBlock = std::unordered_map<String, Int64>;
 static void selectBestProjection(
    const MergeTreeDataSelectExecutor & reader,
    const StorageMetadataPtr & metadata_snapshot,
    const SelectQueryInfo & query_info,
    ProjectionCandidate & candidate,
    ContextPtr query_context,
    const PartitionIdToMaxBlock * max_added_blocks,
    const Settings & settings,
    const MergeTreeData::DataPartsVector & parts,
    ProjectionCandidate *& selected_candidate,
    size_t & min_sum_marks)
 {
    MergeTreeData::DataPartsVector projection_parts;
    MergeTreeData::DataPartsVector normal_parts;
    for (const auto & part : parts)
    {
        const auto & projections = part->getProjectionParts();
        auto it = projections.find(candidate.desc->name);
        if (it != projections.end())
            projection_parts.push_back(it->second);
        else
            normal_parts.push_back(part);
    }
    if (projection_parts.empty())
        return;
    candidate.merge_tree_data_select_base_cache = std::make_unique<MergeTreeDataSelectCache>();
    candidate.merge_tree_data_select_projection_cache = std::make_unique<MergeTreeDataSelectCache>();
    reader.readFromParts(
        projection_parts,
        candidate.required_columns,
        metadata_snapshot,
        candidate.desc->metadata,
        query_info, // TODO syntax_analysis_result set in index
        query_context,
        0, // max_block_size is unused when getting cache
        settings.max_threads,
        max_added_blocks,
        candidate.merge_tree_data_select_projection_cache.get());
    size_t sum_marks = candidate.merge_tree_data_select_projection_cache->sum_marks;
    if (normal_parts.empty())
    {
        // All parts are projection parts which allows us to use in_order_optimization.
        // TODO It might be better to use a complete projection even with more marks to read.
        candidate.complete = true;
    }
    else
    {
        reader.readFromParts(
            normal_parts,
            query_info.required_columns,
            metadata_snapshot,
            metadata_snapshot,
            query_info, // TODO syntax_analysis_result set in index
            query_context,
            0, // max_block_size is unused when getting cache
            settings.max_threads,
            max_added_blocks,
            candidate.merge_tree_data_select_base_cache.get());
        sum_marks += candidate.merge_tree_data_select_base_cache->sum_marks;
    }
    // We choose the projection with least sum_marks to read.
    if (sum_marks < min_sum_marks)
    {
        selected_candidate = &candidate;
        min_sum_marks = sum_marks;
    }
 }
 bool MergeTreeData::getQueryProcessingStageWithAggregateProjection(
    ContextPtr query_context, const StorageMetadataPtr & metadata_snapshot, SelectQueryInfo & query_info) const
 {
    const auto & settings = query_context->getSettingsRef();
    if (!settings.allow_experimental_projection_optimization || query_info.ignore_projections)
        return false;
    const auto & query_ptr = query_info.query;
    InterpreterSelectQuery select(
        query_ptr, query_context, SelectQueryOptions{QueryProcessingStage::WithMergeableState}.ignoreProjections().ignoreAlias());
    const auto & analysis_result = select.getAnalysisResult();
    bool can_use_aggregate_projection = true;
    /// If the first stage of the query pipeline is more complex than Aggregating - Expression - Filter - ReadFromStorage,
    /// we cannot use aggregate projection.
    if (analysis_result.join != nullptr || analysis_result.array_join != nullptr)
        can_use_aggregate_projection = false;
    /// Check if all needed columns can be provided by some aggregate projection. Here we also try
    /// to find expression matches. For example, suppose an aggregate projection contains a column
    /// named sum(x) and the given query also has an expression called sum(x), it's a match. This is
    /// why we need to ignore all aliases during projection creation and the above query planning.
    /// It's also worth noting that, sqrt(sum(x)) will also work because we can treat sum(x) as a
    /// required column.
    /// The ownership of ProjectionDescription is hold in metadata_snapshot which lives along with
    /// InterpreterSelect, thus we can store the raw pointer here.
    std::vector<ProjectionCandidate> candidates;
    NameSet keys;
    std::unordered_map<std::string_view, size_t> key_name_pos_map;
    size_t pos = 0;
    for (const auto & desc : select.getQueryAnalyzer()->aggregationKeys())
    {
        keys.insert(desc.name);
        key_name_pos_map.insert({desc.name, pos++});
    }
    auto actions_settings = ExpressionActionsSettings::fromSettings(settings);
    // All required columns should be provided by either current projection or previous actions
    // Let's traverse backward to finish the check.
    // TODO what if there is a column with name sum(x) and an aggregate sum(x)?
    auto rewrite_before_where =
        [&](ProjectionCandidate & candidate, const ProjectionDescription & projection,
            NameSet & required_columns, const Block & source_block, const Block & aggregates)
    {
        if (analysis_result.before_where)
        {
            candidate.before_where = analysis_result.before_where->clone();
            required_columns = candidate.before_where->foldActionsByProjection(
                required_columns,
                projection.sample_block_for_keys,
                query_ptr->as<const ASTSelectQuery &>().where()->getColumnName());
            if (required_columns.empty())
                return false;
            candidate.before_where->addAggregatesViaProjection(aggregates);
        }
        if (analysis_result.prewhere_info)
        {
            auto & prewhere_info = analysis_result.prewhere_info;
            candidate.prewhere_info = std::make_shared<PrewhereInfo>();
            candidate.prewhere_info->prewhere_column_name = prewhere_info->prewhere_column_name;
            candidate.prewhere_info->remove_prewhere_column = prewhere_info->remove_prewhere_column;
            candidate.prewhere_info->row_level_column_name = prewhere_info->row_level_column_name;
            candidate.prewhere_info->need_filter = prewhere_info->need_filter;
            auto prewhere_actions = prewhere_info->prewhere_actions->clone();
            NameSet prewhere_required_columns;
            prewhere_required_columns = prewhere_actions->foldActionsByProjection(
                prewhere_required_columns, projection.sample_block_for_keys, prewhere_info->prewhere_column_name);
            if (prewhere_required_columns.empty())
                return false;
            candidate.prewhere_info->prewhere_actions = std::make_shared<ExpressionActions>(prewhere_actions, actions_settings);
            if (prewhere_info->row_level_filter_actions)
            {
                auto row_level_filter_actions = prewhere_info->row_level_filter_actions->clone();
                prewhere_required_columns = row_level_filter_actions->foldActionsByProjection(
                    prewhere_required_columns, projection.sample_block_for_keys, prewhere_info->row_level_column_name);
                if (prewhere_required_columns.empty())
                    return false;
                candidate.prewhere_info->row_level_filter
                    = std::make_shared<ExpressionActions>(row_level_filter_actions, actions_settings);
            }
            // TODO wait for alias analysis to be moved into expression analyzer
            if (prewhere_info->alias_actions)
            {
                auto alias_actions = prewhere_info->alias_actions->clone();
                prewhere_required_columns
                    = alias_actions->foldActionsByProjection(prewhere_required_columns, projection.sample_block_for_keys);
                if (prewhere_required_columns.empty())
                    return false;
                candidate.prewhere_info->alias_actions = std::make_shared<ExpressionActions>(alias_actions, actions_settings);
            }
            required_columns.insert(prewhere_required_columns.begin(), prewhere_required_columns.end());
        }
        bool match = true;
        for (const auto & column : required_columns)
        {
            /// There are still missing columns, fail to match
            if (!source_block.has(column))
            {
                match = false;
                break;
            }
        }
        return match;
    };
    for (const auto & projection : metadata_snapshot->projections)
    {
        ProjectionCandidate candidate{};
        candidate.desc = &projection;
        if (projection.type == ProjectionDescription::Type::Aggregate && analysis_result.need_aggregate && can_use_aggregate_projection)
        {
            bool match = true;
            Block aggregates;
            // Let's first check if all aggregates are provided by current projection
            for (const auto & aggregate : select.getQueryAnalyzer()->aggregates())
            {
                const auto * column = projection.sample_block.findByName(aggregate.column_name);
                if (column)
                {
                    aggregates.insert(*column);
                }
                else
                {
                    match = false;
                    break;
                }
            }
            if (!match)
                continue;
            // Check if all aggregation keys can be either provided by some action, or by current
            // projection directly. Reshape the `before_aggregation` action DAG so that it only
            // needs to provide aggregation keys, and certain children DAG might be substituted by
            // some keys in projection.
            candidate.before_aggregation = analysis_result.before_aggregation->clone();
            auto required_columns = candidate.before_aggregation->foldActionsByProjection(keys, projection.sample_block_for_keys);
            if (required_columns.empty())
                continue;
            if (analysis_result.optimize_aggregation_in_order)
            {
                for (const auto & key : keys)
                {
                    auto actions_dag = analysis_result.before_aggregation->clone();
                    actions_dag->foldActionsByProjection({key}, projection.sample_block_for_keys);
                    candidate.group_by_elements_actions.emplace_back(std::make_shared<ExpressionActions>(actions_dag, actions_settings));
                }
            }
            // Reorder aggregation keys and attach aggregates
            candidate.before_aggregation->reorderAggregationKeysForProjection(key_name_pos_map);
            candidate.before_aggregation->addAggregatesViaProjection(aggregates);
            if (rewrite_before_where(candidate, projection, required_columns, projection.sample_block_for_keys, aggregates))
            {
                candidate.required_columns = {required_columns.begin(), required_columns.end()};
                for (const auto & aggregate : aggregates)
                    candidate.required_columns.push_back(aggregate.name);
                candidates.push_back(std::move(candidate));
            }
        }
        if (projection.type == ProjectionDescription::Type::Normal && (analysis_result.hasWhere() || analysis_result.hasPrewhere()))
        {
            // TODO is it possible?
            if (!analysis_result.before_order_by)
                continue;
            NameSet required_columns;
            for (const auto & column : analysis_result.before_order_by->getRequiredColumns())
                required_columns.insert(column.name);
            if (rewrite_before_where(candidate, projection, required_columns, projection.sample_block, {}))
            {
                candidate.required_columns = {required_columns.begin(), required_columns.end()};
                candidates.push_back(std::move(candidate));
            }
        }
    }
    // Let's select the best projection to execute the query.
    if (!candidates.empty())
    {
        // First build a MergeTreeDataSelectCache to check if a projection is indeed better than base
        query_info.merge_tree_data_select_cache = std::make_unique<MergeTreeDataSelectCache>();
        std::unique_ptr<PartitionIdToMaxBlock> max_added_blocks;
        if (settings.select_sequential_consistency)
        {
            if (const StorageReplicatedMergeTree * replicated = dynamic_cast<const StorageReplicatedMergeTree *>(this))
                max_added_blocks = std::make_unique<PartitionIdToMaxBlock>(replicated->getMaxAddedBlocks());
        }
        auto parts = getDataPartsVector();
        MergeTreeDataSelectExecutor reader(*this);
        reader.readFromParts(
            parts,
            query_info.required_columns,
            metadata_snapshot,
            metadata_snapshot,
            query_info, // TODO syntax_analysis_result set in index
            query_context,
            0, // max_block_size is unused when getting cache
            settings.max_threads,
            max_added_blocks.get(),
            query_info.merge_tree_data_select_cache.get());
        size_t min_sum_marks = query_info.merge_tree_data_select_cache->sum_marks;
        ProjectionCandidate * selected_candidate = nullptr;
        /// Favor aggregate projections
        for (auto & candidate : candidates)
        {
            if (candidate.desc->type == ProjectionDescription::Type::Aggregate)
            {
                selectBestProjection(
                    reader,
                    metadata_snapshot,
                    query_info,
                    candidate,
                    query_context,
                    max_added_blocks.get(),
                    settings,
                    parts,
                    selected_candidate,
                    min_sum_marks);
            }
        }
        /// Select the best normal projection if no aggregate projection is available
        if (!selected_candidate)
        {
            for (auto & candidate : candidates)
            {
                if (candidate.desc->type == ProjectionDescription::Type::Normal)
                {
                    selectBestProjection(
                        reader,
                        metadata_snapshot,
                        query_info,
                        candidate,
                        query_context,
                        max_added_blocks.get(),
                        settings,
                        parts,
                        selected_candidate,
                        min_sum_marks);
                }
            }
        }
        if (!selected_candidate)
            return false;
        if (selected_candidate->desc->type == ProjectionDescription::Type::Aggregate)
        {
            selected_candidate->aggregation_keys = select.getQueryAnalyzer()->aggregationKeys();
            selected_candidate->aggregate_descriptions = select.getQueryAnalyzer()->aggregates();
        }
        query_info.projection = std::move(*selected_candidate);
        return true;
    }
    return false;
 }
 QueryProcessingStage::Enum MergeTreeData::getQueryProcessingStage(
    ContextPtr query_context,
--- a/src/Storages/MergeTree/MergeTreeData.h
+++ b/src/Storages/MergeTree/MergeTreeData.h
@ -358,6 +358,9 @@ public:
                  bool attach,
                  BrokenPartCallback broken_part_callback_ = [](const String &){});
    bool getQueryProcessingStageWithAggregateProjection(
        ContextPtr query_context, const StorageMetadataPtr & metadata_snapshot, SelectQueryInfo & query_info) const;
    QueryProcessingStage::Enum getQueryProcessingStage(
        ContextPtr query_context,
        QueryProcessingStage::Enum to_stage,
--- a/src/Storages/MergeTree/MergeTreeDataSelectExecutor.cpp
+++ b/src/Storages/MergeTree/MergeTreeDataSelectExecutor.cpp
--- a/src/Storages/MergeTree/MergeTreeDataSelectExecutor.h
+++ b/src/Storages/MergeTree/MergeTreeDataSelectExecutor.h
@ -13,6 +13,22 @@ namespace DB
 class KeyCondition;
 struct MergeTreeDataSelectSamplingData
 {
    bool use_sampling;
    std::shared_ptr<ASTFunction> filter_function;
    ActionsDAGPtr filter_expression;
 };
 struct MergeTreeDataSelectCache
 {
    RangesInDataParts parts_with_ranges;
    MergeTreeDataSelectSamplingData sampling;
    std::unique_ptr<ReadFromMergeTree::IndexStats> index_stats;
    size_t sum_marks = 0;
    size_t sum_ranges = 0;
    bool use_cache = false;
 };
 /** Executes SELECT queries on data from the merge tree.
  */
@ -36,18 +52,17 @@ public:
        QueryProcessingStage::Enum processed_stage,
        const PartitionIdToMaxBlock * max_block_numbers_to_read = nullptr) const;
    QueryPlanPtr readFromParts(
        MergeTreeData::DataPartsVector parts,
        const Names & column_names,
        const StorageMetadataPtr & metadata_snapshot_base,
        const StorageMetadataPtr & metadata_snapshot,
        const SelectQueryInfo & query_info,
        ContextPtr context,
        UInt64 max_block_size,
        unsigned num_streams,
        const PartitionIdToMaxBlock * max_block_numbers_to_read = nullptr,
-        size_t * num_granules_to_read = nullptr,
+        MergeTreeDataSelectCache * cache = nullptr) const;
        bool use_projection_metadata = false) const;
 private:
    const MergeTreeData & data;
@ -83,7 +98,8 @@ private:
        const Settings & settings,
        const MergeTreeReaderSettings & reader_settings,
        ActionsDAGPtr & out_projection,
-        const String & query_id) const;
+        const String & query_id,
        const InputOrderInfoPtr & input_order_info) const;
    QueryPlanPtr spreadMarkRangesAmongStreamsFinal(
        RangesInDataParts && parts,
--- a/src/Storages/MergeTree/MergeTreeDataUtils.cpp
+++ b/src/Storages/MergeTree/MergeTreeDataUtils.cpp
@ -1,228 +0,0 @@
 #include <Storages/MergeTree/MergeTreeDataUtils.h>
 #include <Interpreters/Context.h>
 #include <Interpreters/InterpreterSelectQuery.h>
 namespace DB
 {
 bool getQueryProcessingStageWithAggregateProjection(
    ContextPtr query_context, const StorageMetadataPtr & metadata_snapshot, SelectQueryInfo & query_info)
 {
    const auto & settings = query_context->getSettingsRef();
    if (!settings.allow_experimental_projection_optimization || query_info.ignore_projections)
        return false;
    const auto & query_ptr = query_info.query;
    InterpreterSelectQuery select(
        query_ptr, query_context, SelectQueryOptions{QueryProcessingStage::WithMergeableState}.ignoreProjections().ignoreAlias());
    const auto & analysis_result = select.getAnalysisResult();
    bool can_use_aggregate_projection = true;
    /// If the first stage of the query pipeline is more complex than Aggregating - Expression - Filter - ReadFromStorage,
    /// we cannot use aggregate projection.
    if (analysis_result.join != nullptr || analysis_result.array_join != nullptr)
        can_use_aggregate_projection = false;
    /// Check if all needed columns can be provided by some aggregate projection. Here we also try
    /// to find expression matches. For example, suppose an aggregate projection contains a column
    /// named sum(x) and the given query also has an expression called sum(x), it's a match. This is
    /// why we need to ignore all aliases during projection creation and the above query planning.
    /// It's also worth noting that, sqrt(sum(x)) will also work because we can treat sum(x) as a
    /// required column.
    /// The ownership of ProjectionDescription is hold in metadata_snapshot which lives along with
    /// InterpreterSelect, thus we can store the raw pointer here.
    std::vector<ProjectionCandidate> candidates;
    NameSet keys;
    std::unordered_map<std::string_view, size_t> key_name_pos_map;
    size_t pos = 0;
    for (const auto & desc : select.getQueryAnalyzer()->aggregationKeys())
    {
        keys.insert(desc.name);
        key_name_pos_map.insert({desc.name, pos++});
    }
    // All required columns should be provided by either current projection or previous actions
    // Let's traverse backward to finish the check.
    // TODO what if there is a column with name sum(x) and an aggregate sum(x)?
    auto rewrite_before_where =
        [&](ProjectionCandidate & candidate, const ProjectionDescription & projection,
            NameSet & required_columns, const Block & source_block, const Block & aggregates)
    {
        if (analysis_result.before_where)
        {
            candidate.before_where = analysis_result.before_where->clone();
            required_columns = candidate.before_where->foldActionsByProjection(
                required_columns,
                projection.sample_block_for_keys,
                query_ptr->as<const ASTSelectQuery &>().where()->getColumnName());
            if (required_columns.empty())
                return false;
            candidate.before_where->addAggregatesViaProjection(aggregates);
        }
        if (analysis_result.prewhere_info)
        {
            auto & prewhere_info = analysis_result.prewhere_info;
            candidate.prewhere_info = std::make_shared<PrewhereInfo>();
            candidate.prewhere_info->prewhere_column_name = prewhere_info->prewhere_column_name;
            candidate.prewhere_info->remove_prewhere_column = prewhere_info->remove_prewhere_column;
            candidate.prewhere_info->row_level_column_name = prewhere_info->row_level_column_name;
            candidate.prewhere_info->need_filter = prewhere_info->need_filter;
            auto actions_settings = ExpressionActionsSettings::fromSettings(query_context->getSettingsRef());
            auto prewhere_actions = prewhere_info->prewhere_actions->clone();
            NameSet prewhere_required_columns;
            prewhere_required_columns = prewhere_actions->foldActionsByProjection(
                prewhere_required_columns, projection.sample_block_for_keys, prewhere_info->prewhere_column_name);
            if (prewhere_required_columns.empty())
                return false;
            candidate.prewhere_info->prewhere_actions = std::make_shared<ExpressionActions>(prewhere_actions, actions_settings);
            if (prewhere_info->row_level_filter_actions)
            {
                auto row_level_filter_actions = prewhere_info->row_level_filter_actions->clone();
                prewhere_required_columns = row_level_filter_actions->foldActionsByProjection(
                    prewhere_required_columns, projection.sample_block_for_keys, prewhere_info->row_level_column_name);
                if (prewhere_required_columns.empty())
                    return false;
                candidate.prewhere_info->row_level_filter
                    = std::make_shared<ExpressionActions>(row_level_filter_actions, actions_settings);
            }
            if (prewhere_info->alias_actions)
            {
                auto alias_actions = prewhere_info->alias_actions->clone();
                prewhere_required_columns
                    = alias_actions->foldActionsByProjection(prewhere_required_columns, projection.sample_block_for_keys);
                if (prewhere_required_columns.empty())
                    return false;
                candidate.prewhere_info->alias_actions = std::make_shared<ExpressionActions>(alias_actions, actions_settings);
            }
            required_columns.insert(prewhere_required_columns.begin(), prewhere_required_columns.end());
        }
        bool match = true;
        for (const auto & column : required_columns)
        {
            /// There are still missing columns, fail to match
            if (!source_block.has(column))
            {
                match = false;
                break;
            }
        }
        return match;
    };
    for (const auto & projection : metadata_snapshot->projections)
    {
        ProjectionCandidate candidate{};
        candidate.desc = &projection;
        if (projection.type == ProjectionDescription::Type::Aggregate && analysis_result.need_aggregate && can_use_aggregate_projection)
        {
            bool match = true;
            Block aggregates;
            // Let's first check if all aggregates are provided by current projection
            for (const auto & aggregate : select.getQueryAnalyzer()->aggregates())
            {
                const auto * column = projection.sample_block.findByName(aggregate.column_name);
                if (column)
                {
                    aggregates.insert(*column);
                }
                else
                {
                    match = false;
                    break;
                }
            }
            if (!match)
                continue;
            // Check if all aggregation keys can be either provided by some action, or by current
            // projection directly. Reshape the `before_aggregation` action DAG so that it only
            // needs to provide aggregation keys, and certain children DAG might be substituted by
            // some keys in projection.
            candidate.before_aggregation = analysis_result.before_aggregation->clone();
            auto required_columns = candidate.before_aggregation->foldActionsByProjection(keys, projection.sample_block_for_keys);
            if (required_columns.empty())
                continue;
            // Reorder aggregation keys and attach aggregates
            candidate.before_aggregation->reorderAggregationKeysForProjection(key_name_pos_map);
            candidate.before_aggregation->addAggregatesViaProjection(aggregates);
            if (rewrite_before_where(candidate, projection, required_columns, projection.sample_block_for_keys, aggregates))
            {
                candidate.required_columns = {required_columns.begin(), required_columns.end()};
                for (const auto & aggregate : aggregates)
                    candidate.required_columns.push_back(aggregate.name);
                candidates.push_back(std::move(candidate));
            }
        }
        if (projection.type == ProjectionDescription::Type::Normal && (analysis_result.hasWhere() || analysis_result.hasPrewhere()))
        {
            NameSet required_columns;
            if (analysis_result.hasWhere())
            {
                for (const auto & column : analysis_result.before_where->getResultColumns())
                    required_columns.insert(column.name);
            }
            else
            {
                for (const auto & column : analysis_result.prewhere_info->prewhere_actions->getResultColumns())
                    required_columns.insert(column.name);
            }
            if (rewrite_before_where(candidate, projection, required_columns, projection.sample_block, {}))
            {
                candidate.required_columns = {required_columns.begin(), required_columns.end()};
                candidates.push_back(std::move(candidate));
            }
        }
    }
    // Let's select the best aggregate projection to execute the query.
    if (!candidates.empty())
    {
        size_t min_key_size = std::numeric_limits<size_t>::max();
        ProjectionCandidate * selected_candidate = nullptr;
        /// Favor aggregate projections
        for (auto & candidate : candidates)
        {
            // TODO We choose the projection with least key_size. Perhaps we can do better? (key rollups)
            if (candidate.desc->type == ProjectionDescription::Type::Aggregate && candidate.desc->key_size < min_key_size)
            {
                selected_candidate = &candidate;
                min_key_size = candidate.desc->key_size;
            }
        }
        /// TODO Select the best normal projection if no aggregate projection is available
        if (!selected_candidate)
        {
            for (auto & candidate : candidates)
                selected_candidate = &candidate;
        }
        if (!selected_candidate)
            return false;
        if (selected_candidate->desc->type == ProjectionDescription::Type::Aggregate)
        {
            selected_candidate->aggregation_keys = select.getQueryAnalyzer()->aggregationKeys();
            selected_candidate->aggregate_descriptions = select.getQueryAnalyzer()->aggregates();
        }
        query_info.projection = std::move(*selected_candidate);
        return true;
    }
    return false;
 }
 }
--- a/src/Storages/MergeTree/MergeTreeDataUtils.h
+++ b/src/Storages/MergeTree/MergeTreeDataUtils.h
@ -1,13 +0,0 @@
 #pragma once
 #include <Interpreters/Context_fwd.h>
 #include <Storages/SelectQueryInfo.h>
 #include <Storages/StorageInMemoryMetadata.h>
 namespace DB
 {
 bool getQueryProcessingStageWithAggregateProjection(
    ContextPtr query_context, const StorageMetadataPtr & metadata_snapshot, SelectQueryInfo & query_info);
 }
--- a/src/Storages/MergeTree/StorageFromBasePartsOfProjection.h
+++ b/src/Storages/MergeTree/StorageFromBasePartsOfProjection.h
@ -0,0 +1,75 @@
 #pragma once
 #include <Core/Defines.h>
 #include <Processors/QueryPipeline.h>
 #include <Processors/QueryPlan/BuildQueryPipelineSettings.h>
 #include <Processors/QueryPlan/Optimizations/QueryPlanOptimizationSettings.h>
 #include <Processors/QueryPlan/QueryPlan.h>
 #include <Storages/IStorage.h>
 #include <Storages/MergeTree/IMergeTreeDataPart.h>
 #include <Storages/MergeTree/MergeTreeDataSelectExecutor.h>
 #include <ext/shared_ptr_helper.h>
 namespace DB
 {
 /// A Storage that allows reading from a single MergeTree data part.
 class StorageFromBasePartsOfProjection final : public ext::shared_ptr_helper<StorageFromBasePartsOfProjection>, public IStorage
 {
    friend struct ext::shared_ptr_helper<StorageFromBasePartsOfProjection>;
 public:
    String getName() const override { return "FromBasePartsOfProjection"; }
    Pipe read(
        const Names & column_names,
        const StorageMetadataPtr & metadata_snapshot,
        SelectQueryInfo & query_info,
        ContextPtr context,
        QueryProcessingStage::Enum /*processed_stage*/,
        size_t max_block_size,
        unsigned num_streams) override
    {
        // NOTE: It's used to read normal parts only
        QueryPlan query_plan = std::move(*MergeTreeDataSelectExecutor(storage).readFromParts(
            {},
            column_names,
            metadata_snapshot,
            metadata_snapshot,
            query_info,
            context,
            max_block_size,
            num_streams,
            nullptr,
            query_info.projection ? query_info.projection->merge_tree_data_select_base_cache.get()
                                  : query_info.merge_tree_data_select_cache.get()));
        return query_plan.convertToPipe(
            QueryPlanOptimizationSettings::fromContext(context), BuildQueryPipelineSettings::fromContext(context));
    }
    bool supportsIndexForIn() const override { return true; }
    bool mayBenefitFromIndexForIn(
        const ASTPtr & left_in_operand, ContextPtr query_context, const StorageMetadataPtr & metadata_snapshot) const override
    {
        return storage.mayBenefitFromIndexForIn(left_in_operand, query_context, metadata_snapshot);
    }
    NamesAndTypesList getVirtuals() const override { return storage.getVirtuals(); }
 protected:
    StorageFromBasePartsOfProjection(const MergeTreeData & storage_, const StorageMetadataPtr & metadata_snapshot)
        : IStorage(storage_.getStorageID()), storage(storage_)
    {
        setInMemoryMetadata(*metadata_snapshot);
    }
 private:
    const MergeTreeData & storage;
 };
 }
--- a/src/Storages/MergeTree/StorageFromMergeTreeDataPart.h
+++ b/src/Storages/MergeTree/StorageFromMergeTreeDataPart.h
@ -31,19 +31,23 @@ public:
        size_t max_block_size,
        unsigned num_streams) override
    {
        // NOTE: It's used to read normal parts only
        QueryPlan query_plan = std::move(*MergeTreeDataSelectExecutor(parts.front()->storage)
                                              .readFromParts(
                                                  parts,
                                                  column_names,
                                                  metadata_snapshot,
                                                  metadata_snapshot,
                                                  query_info,
                                                  context,
                                                  max_block_size,
                                                  num_streams,
                                                  nullptr,
-                                                  &num_granules_from_last_read));
+                                                  query_info.projection ? query_info.projection->merge_tree_data_select_base_cache.get()
                                                                        : query_info.merge_tree_data_select_cache.get()));
-        return query_plan.convertToPipe(QueryPlanOptimizationSettings::fromContext(context), BuildQueryPipelineSettings::fromContext(context));
+        return query_plan.convertToPipe(
            QueryPlanOptimizationSettings::fromContext(context), BuildQueryPipelineSettings::fromContext(context));
    }
@ -70,8 +74,6 @@ public:
        return parts.front()->storage.getPartitionIDFromQuery(ast, context);
    }
    size_t getNumGranulesFromLastRead() const { return num_granules_from_last_read; }
 protected:
    StorageFromMergeTreeDataPart(const MergeTreeData::DataPartPtr & part_)
        : IStorage(getIDFromPart(part_))
@ -90,8 +92,6 @@ protected:
 private:
    MergeTreeData::DataPartsVector parts;
    size_t num_granules_from_last_read = 0;
    static StorageID getIDFromPart(const MergeTreeData::DataPartPtr & part_)
    {
        auto table_id = part_->storage.getStorageID();
--- a/src/Storages/SelectQueryInfo.h
+++ b/src/Storages/SelectQueryInfo.h
@ -116,6 +116,10 @@ struct InputOrderInfo
 class IMergeTreeDataPart;
 using ManyExpressionActions = std::vector<ExpressionActionsPtr>;
 struct MergeTreeDataSelectCache;
 // The projection selected to execute current query
 struct ProjectionCandidate
 {
@ -126,6 +130,12 @@ struct ProjectionCandidate
    Names required_columns;
    NamesAndTypesList aggregation_keys;
    AggregateDescriptions aggregate_descriptions;
    bool complete = false;
    ReadInOrderOptimizerPtr order_optimizer;
    InputOrderInfoPtr input_order_info;
    ManyExpressionActions group_by_elements_actions;
    std::shared_ptr<MergeTreeDataSelectCache> merge_tree_data_select_base_cache;
    std::shared_ptr<MergeTreeDataSelectCache> merge_tree_data_select_projection_cache;
 };
 /** Query along with some additional data,
@ -159,9 +169,12 @@ struct SelectQueryInfo
    ClusterPtr getCluster() const { return !optimized_cluster ? cluster : optimized_cluster; }
    Names required_columns;
    /// If not null, it means we choose a projection to execute current query.
    std::optional<ProjectionCandidate> projection;
    bool ignore_projections = false;
    std::shared_ptr<MergeTreeDataSelectCache> merge_tree_data_select_cache;
 };
 }