ClickHouse/dbms/src/Storages/Kafka/KafkaBlockInputStream.cpp

#include <Storages/Kafka/KafkaBlockInputStream.h>

#include <DataStreams/ConvertingBlockInputStream.h>
#include <DataStreams/OneBlockInputStream.h>
#include <Formats/FormatFactory.h>
#include <Storages/Kafka/ReadBufferFromKafkaConsumer.h>

namespace DB
{

KafkaBlockInputStream::KafkaBlockInputStream(
    StorageKafka & storage_, const Context & context_, const Names & columns, size_t max_block_size_)
    : storage(storage_), context(context_), column_names(columns), max_block_size(max_block_size_)
{
    context.setSetting("input_format_skip_unknown_fields", 1u); // Always skip unknown fields regardless of the context (JSON or TSKV)
    context.setSetting("input_format_allow_errors_ratio", 0.);
    context.setSetting("input_format_allow_errors_num", storage.skipBroken());

    if (!storage.getSchemaName().empty())
        context.setSetting("format_schema", storage.getSchemaName());

    virtual_columns = storage.getSampleBlockForColumns({"_topic", "_key", "_offset"}).cloneEmptyColumns();
}

KafkaBlockInputStream::~KafkaBlockInputStream()
{
    if (!claimed)
        return;

    if (broken)
        buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->unsubscribe();

    storage.pushBuffer(buffer);
}

Block KafkaBlockInputStream::getHeader() const
{
    return storage.getSampleBlockForColumns(column_names);
}

void KafkaBlockInputStream::readPrefixImpl()
{
    buffer = storage.tryClaimBuffer(context.getSettingsRef().queue_max_wait_ms.totalMilliseconds());
    claimed = !!buffer;

    if (!buffer)
        buffer = storage.createBuffer();

    buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->subscribe(storage.getTopics());

    const auto & limits = getLimits();
    const size_t poll_timeout = buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->pollTimeout();
    size_t rows_portion_size = poll_timeout ? std::min<size_t>(max_block_size, limits.max_execution_time.totalMilliseconds() / poll_timeout) : max_block_size;
    rows_portion_size = std::max(rows_portion_size, 1ul);

    auto non_virtual_header = storage.getSampleBlockNonMaterialized(); /// FIXME: add materialized columns support
    auto read_callback = [this]
    {
        const auto * sub_buffer = buffer->subBufferAs<ReadBufferFromKafkaConsumer>();
        virtual_columns[0]->insert(sub_buffer->currentTopic());  // "topic"
        virtual_columns[1]->insert(sub_buffer->currentKey());    // "key"
        virtual_columns[2]->insert(sub_buffer->currentOffset()); // "offset"
    };

    auto child = FormatFactory::instance().getInput(
        storage.getFormatName(), *buffer, non_virtual_header, context, max_block_size, rows_portion_size, read_callback);
    child->setLimits(limits);
    addChild(child);

    broken = true;
}

Block KafkaBlockInputStream::readImpl()
{
    Block block = children.back()->read();
    if (!block)
        return block;

    Block virtual_block = storage.getSampleBlockForColumns({"_topic", "_key", "_offset"}).cloneWithColumns(std::move(virtual_columns));
    virtual_columns = storage.getSampleBlockForColumns({"_topic", "_key", "_offset"}).cloneEmptyColumns();

    for (const auto & column : virtual_block.getColumnsWithTypeAndName())
        block.insert(column);

    /// FIXME: materialize MATERIALIZED columns here.

    return ConvertingBlockInputStream(
               context, std::make_shared<OneBlockInputStream>(block), getHeader(), ConvertingBlockInputStream::MatchColumnsMode::Name)
        .read();
}

void KafkaBlockInputStream::readSuffixImpl()
{
    buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->commit();

    broken = false;
}

}
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`#include <Storages/Kafka/KafkaBlockInputStream.h>`

Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`#include <DataStreams/ConvertingBlockInputStream.h>`
			`#include <DataStreams/OneBlockInputStream.h>`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`#include <Formats/FormatFactory.h>`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`#include <Storages/Kafka/ReadBufferFromKafkaConsumer.h>`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
			`namespace DB`
			`{`

			`KafkaBlockInputStream::KafkaBlockInputStream(`
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`StorageKafka & storage_, const Context & context_, const Names & columns, size_t max_block_size_)`
			`: storage(storage_), context(context_), column_names(columns), max_block_size(max_block_size_)`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`context.setSetting("input_format_skip_unknown_fields", 1u); // Always skip unknown fields regardless of the context (JSON or TSKV)`
Fix build 2019-01-24 12:44:58 +00:00			`context.setSetting("input_format_allow_errors_ratio", 0.);`
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`context.setSetting("input_format_allow_errors_num", storage.skipBroken());`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`if (!storage.getSchemaName().empty())`
			`context.setSetting("format_schema", storage.getSchemaName());`
Add buffer callback to fill in virtual columns 2019-05-23 11:15:18 +00:00
			`virtual_columns = storage.getSampleBlockForColumns({"_topic", "_key", "_offset"}).cloneEmptyColumns();`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

			`KafkaBlockInputStream::~KafkaBlockInputStream()`
			`{`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`if (!claimed)`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`return;`

Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`if (broken)`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->unsubscribe();`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`storage.pushBuffer(buffer);`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

[WIP] refactoring 2019-05-22 19:38:43 +00:00			`Block KafkaBlockInputStream::getHeader() const`
			`{`
			`return storage.getSampleBlockForColumns(column_names);`
			`}`

Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`void KafkaBlockInputStream::readPrefixImpl()`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`buffer = storage.tryClaimBuffer(context.getSettingsRef().queue_max_wait_ms.totalMilliseconds());`
			`claimed = !!buffer;`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`if (!buffer)`
			`buffer = storage.createBuffer();`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->subscribe(storage.getTopics());`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00
Check the time limit every (flush_interval / poll_timeout) number of rows from Kafka (#5249) 2019-05-14 15:52:03 +00:00			`const auto & limits = getLimits();`
			`const size_t poll_timeout = buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->pollTimeout();`
Use system rapidjson; Fix types for macos; 2019-06-14 10:28:30 +00:00			`size_t rows_portion_size = poll_timeout ? std::min<size_t>(max_block_size, limits.max_execution_time.totalMilliseconds() / poll_timeout) : max_block_size;`
Check the time limit every (flush_interval / poll_timeout) number of rows from Kafka (#5249) 2019-05-14 15:52:03 +00:00			`rows_portion_size = std::max(rows_portion_size, 1ul);`

[WIP] refactoring 2019-05-22 19:38:43 +00:00			`auto non_virtual_header = storage.getSampleBlockNonMaterialized(); /// FIXME: add materialized columns support`
Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`auto read_callback = [this]`
Add buffer callback to fill in virtual columns 2019-05-23 11:15:18 +00:00			`{`
			`const auto * sub_buffer = buffer->subBufferAs<ReadBufferFromKafkaConsumer>();`
			`virtual_columns[0]->insert(sub_buffer->currentTopic()); // "topic"`
			`virtual_columns[1]->insert(sub_buffer->currentKey()); // "key"`
			`virtual_columns[2]->insert(sub_buffer->currentOffset()); // "offset"`
			`};`

[WIP] refactoring 2019-05-22 19:38:43 +00:00			`auto child = FormatFactory::instance().getInput(`
Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`storage.getFormatName(), *buffer, non_virtual_header, context, max_block_size, rows_portion_size, read_callback);`
Check the time limit every (flush_interval / poll_timeout) number of rows from Kafka (#5249) 2019-05-14 15:52:03 +00:00			`child->setLimits(limits);`
			`addChild(child);`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00
			`broken = true;`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

[WIP] refactoring 2019-05-22 19:38:43 +00:00			`Block KafkaBlockInputStream::readImpl()`
			`{`
			`Block block = children.back()->read();`
Don't add virtual column to empty block 2019-05-27 21:01:24 +00:00			`if (!block)`
			`return block;`

Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`Block virtual_block = storage.getSampleBlockForColumns({"_topic", "_key", "_offset"}).cloneWithColumns(std::move(virtual_columns));`
			`virtual_columns = storage.getSampleBlockForColumns({"_topic", "_key", "_offset"}).cloneEmptyColumns();`

			`for (const auto & column : virtual_block.getColumnsWithTypeAndName())`
			`block.insert(column);`

			`/// FIXME: materialize MATERIALIZED columns here.`

			`return ConvertingBlockInputStream(`
			`context, std::make_shared<OneBlockInputStream>(block), getHeader(), ConvertingBlockInputStream::MatchColumnsMode::Name)`
			`.read();`
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`}`

Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`void KafkaBlockInputStream::readSuffixImpl()`
			`{`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`buffer->subBufferAs<ReadBufferFromKafkaConsumer>()->commit();`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`broken = false;`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`}`