ClickHouse/dbms/src/Storages/Kafka/KafkaBlockInputStream.cpp

#include <Storages/Kafka/KafkaBlockInputStream.h>

#include <DataStreams/ConvertingBlockInputStream.h>
#include <DataStreams/OneBlockInputStream.h>
#include <Formats/FormatFactory.h>
#include <Storages/Kafka/ReadBufferFromKafkaConsumer.h>
#include <Processors/Formats/InputStreamFromInputFormat.h>

namespace DB
{
KafkaBlockInputStream::KafkaBlockInputStream(
    StorageKafka & storage_, const Context & context_, const Names & columns, size_t max_block_size_, bool commit_in_suffix_)
    : storage(storage_)
    , context(context_)
    , column_names(columns)
    , max_block_size(max_block_size_)
    , commit_in_suffix(commit_in_suffix_)
    , non_virtual_header(storage.getSampleBlockNonMaterialized()) /// FIXME: add materialized columns support
    , virtual_header(storage.getSampleBlockForColumns({"_topic", "_key", "_offset", "_partition", "_timestamp"}))

{
    context.setSetting("input_format_skip_unknown_fields", 1u); // Always skip unknown fields regardless of the context (JSON or TSKV)
    context.setSetting("input_format_allow_errors_ratio", 0.);
    context.setSetting("input_format_allow_errors_num", storage.skipBroken());

    if (!storage.getSchemaName().empty())
        context.setSetting("format_schema", storage.getSchemaName());
}

KafkaBlockInputStream::~KafkaBlockInputStream()
{
    if (!claimed)
        return;

    if (broken)
        buffer->unsubscribe();

    storage.pushReadBuffer(buffer);
}

Block KafkaBlockInputStream::getHeader() const
{
    return storage.getSampleBlockForColumns(column_names);
}

void KafkaBlockInputStream::readPrefixImpl()
{
    auto timeout = std::chrono::milliseconds(context.getSettingsRef().kafka_max_wait_ms.totalMilliseconds());
    buffer = storage.popReadBuffer(timeout);
    claimed = !!buffer;

    if (!buffer)
        return;

    buffer->subscribe(storage.getTopics());

    broken = true;
}

Block KafkaBlockInputStream::readImpl()
{
    if (!buffer)
        return Block();

    MutableColumns result_columns  = non_virtual_header.cloneEmptyColumns();
    MutableColumns virtual_columns = virtual_header.cloneEmptyColumns();

    auto input_format = FormatFactory::instance().getInputFormat(
        storage.getFormatName(), *buffer, non_virtual_header, context, max_block_size);

    InputPort port(input_format->getPort().getHeader(), input_format.get());
    connect(input_format->getPort(), port);
    port.setNeeded();

    auto read_kafka_message = [&]
    {
        size_t new_rows = 0;

        while (true)
        {
            auto status = input_format->prepare();

            switch (status)
            {
                case IProcessor::Status::Ready:
                    input_format->work();
                    break;

                case IProcessor::Status::Finished:
                    input_format->resetParser();
                    return new_rows;

                case IProcessor::Status::PortFull:
                {
                    auto chunk = port.pull();

                    // that was returning bad value before https://github.com/ClickHouse/ClickHouse/pull/8005
                    // if will be backported should go together with #8005
                    auto chunk_rows = chunk.getNumRows();
                    new_rows += chunk_rows;

                    auto columns = chunk.detachColumns();
                    for (size_t i = 0, s = columns.size(); i < s; ++i)
                    {
                        result_columns[i]->insertRangeFrom(*columns[i], 0, columns[i]->size());
                    }
                    break;
                }
                case IProcessor::Status::NeedData:
                case IProcessor::Status::Async:
                case IProcessor::Status::Wait:
                case IProcessor::Status::ExpandPipeline:
                    throw Exception("Source processor returned status " + IProcessor::statusToName(status), ErrorCodes::LOGICAL_ERROR);
            }
        }
    };

    size_t total_rows = 0;

    while (true)
    {
        buffer->allowNext();

        // some formats (like RowBinaryWithNamesAndTypes / CSVWithNames)
        // throw an exception from readPrefix when buffer in empty
        if (buffer->eof())
            break;

        auto new_rows = read_kafka_message();

        auto _topic         = buffer->currentTopic();
        auto _key           = buffer->currentKey();
        auto _offset        = buffer->currentOffset();
        auto _partition     = buffer->currentPartition();
        auto _timestamp_raw = buffer->currentTimestamp();
        auto _timestamp     = _timestamp_raw ? std::chrono::duration_cast<std::chrono::seconds>(_timestamp_raw->get_timestamp()).count()
                                                : 0;

        for (size_t i = 0; i < new_rows; ++i)
        {
            virtual_columns[0]->insert(_topic);
            virtual_columns[1]->insert(_key);
            virtual_columns[2]->insert(_offset);
            virtual_columns[3]->insert(_partition);
            if (_timestamp_raw)
            {
                virtual_columns[4]->insert(_timestamp);
            }
            else
            {
                virtual_columns[4]->insertDefault();
            }
        }

        total_rows = total_rows + new_rows;
        if (!new_rows || total_rows >= max_block_size || !checkTimeLimit())
            break;
    }

    if (total_rows == 0)
        return Block();

    /// MATERIALIZED columns can be added here, but I think
    // they are not needed here:
    // and it's misleading to use them here,
    // as columns 'materialized' that way stays 'ephemeral'
    // i.e. will not be stored anythere
    // IF needed any extra columns can be added using DEFAULT  they can be added at MV level if needed,

    auto result_block  = non_virtual_header.cloneWithColumns(std::move(result_columns));
    auto virtual_block = virtual_header.cloneWithColumns(std::move(virtual_columns));

    for (const auto & column : virtual_block.getColumnsWithTypeAndName())
        result_block.insert(column);

    return ConvertingBlockInputStream(
               context,
               std::make_shared<OneBlockInputStream>(result_block),
               getHeader(),
               ConvertingBlockInputStream::MatchColumnsMode::Name)
        .read();
}

void KafkaBlockInputStream::readSuffixImpl()
{
    broken = false;

    if (commit_in_suffix)
        commit();
}

void KafkaBlockInputStream::commit()
{
    if (!buffer)
        return;

    buffer->commit();
}

}
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`#include <Storages/Kafka/KafkaBlockInputStream.h>`

Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`#include <DataStreams/ConvertingBlockInputStream.h>`
			`#include <DataStreams/OneBlockInputStream.h>`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`#include <Formats/FormatFactory.h>`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`#include <Storages/Kafka/ReadBufferFromKafkaConsumer.h>`
attempt to fix kafka parsing performance regression https://github.com/ClickHouse/ClickHouse/issues/7261 2019-11-26 23:46:19 +00:00			`#include <Processors/Formats/InputStreamFromInputFormat.h>`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
			`namespace DB`
			`{`
			`KafkaBlockInputStream::KafkaBlockInputStream(`
Commit to Kafka explicitly after the writing is finalized (#7175) 2019-10-02 21:17:19 +00:00			`StorageKafka & storage_, const Context & context_, const Names & columns, size_t max_block_size_, bool commit_in_suffix_)`
Don't initialize some constant blocks in a loop (#7475) 2019-11-01 11:34:29 +00:00			`: storage(storage_)`
			`, context(context_)`
			`, column_names(columns)`
			`, max_block_size(max_block_size_)`
			`, commit_in_suffix(commit_in_suffix_)`
			`, non_virtual_header(storage.getSampleBlockNonMaterialized()) /// FIXME: add materialized columns support`
			`, virtual_header(storage.getSampleBlockForColumns({"_topic", "_key", "_offset", "_partition", "_timestamp"}))`
make virtual_columns local 2019-11-29 06:21:31 +00:00
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`context.setSetting("input_format_skip_unknown_fields", 1u); // Always skip unknown fields regardless of the context (JSON or TSKV)`
Fix build 2019-01-24 12:44:58 +00:00			`context.setSetting("input_format_allow_errors_ratio", 0.);`
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`context.setSetting("input_format_allow_errors_num", storage.skipBroken());`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`if (!storage.getSchemaName().empty())`
			`context.setSetting("format_schema", storage.getSchemaName());`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

			`KafkaBlockInputStream::~KafkaBlockInputStream()`
			`{`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`if (!claimed)`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`return;`

Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`if (broken)`
Fix kafka tests (#6805) * Commit offsets more precisely * Get rid of DelimitedReadBuffer since read buffers don't line up well * Increase timeouts 2019-09-04 21:25:33 +00:00			`buffer->unsubscribe();`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Implement support for insertion into Kafka tables (#6012) * Add write-callback on each row for RowOutputStream * Fix build of new rdkafka library * Poll messages if Kafka outgoing queue is full * Add test * Add test producer-consumer * Truncate delimiter from last row in message 2019-08-20 11:17:57 +00:00			`storage.pushReadBuffer(buffer);`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

[WIP] refactoring 2019-05-22 19:38:43 +00:00			`Block KafkaBlockInputStream::getHeader() const`
			`{`
			`return storage.getSampleBlockForColumns(column_names);`
			`}`

Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00			`void KafkaBlockInputStream::readPrefixImpl()`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Added setting "kafka_max_wait_ms" 2019-08-28 15:24:23 +00:00			`auto timeout = std::chrono::milliseconds(context.getSettingsRef().kafka_max_wait_ms.totalMilliseconds());`
Implement support for insertion into Kafka tables (#6012) * Add write-callback on each row for RowOutputStream * Fix build of new rdkafka library * Poll messages if Kafka outgoing queue is full * Add test * Add test producer-consumer * Truncate delimiter from last row in message 2019-08-20 11:17:57 +00:00			`buffer = storage.popReadBuffer(timeout);`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`claimed = !!buffer;`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`if (!buffer)`
Implement support for insertion into Kafka tables (#6012) * Add write-callback on each row for RowOutputStream * Fix build of new rdkafka library * Poll messages if Kafka outgoing queue is full * Add test * Add test producer-consumer * Truncate delimiter from last row in message 2019-08-20 11:17:57 +00:00			`return;`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Fix kafka tests (#6805) * Commit offsets more precisely * Get rid of DelimitedReadBuffer since read buffers don't line up well * Increase timeouts 2019-09-04 21:25:33 +00:00			`buffer->subscribe(storage.getTopics());`
Create new consumers on-demand and give them some time for graceful assignment. 2019-01-30 17:41:06 +00:00
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`broken = true;`
			`}`

			`Block KafkaBlockInputStream::readImpl()`
			`{`
			`if (!buffer)`
			`return Block();`
Check the time limit every (flush_interval / poll_timeout) number of rows from Kafka (#5249) 2019-05-14 15:52:03 +00:00
get rid of cloneWithColumns in internal loop and some other trash 2019-11-29 10:46:25 +00:00			`MutableColumns result_columns = non_virtual_header.cloneEmptyColumns();`
make virtual_columns local 2019-11-29 06:21:31 +00:00			`MutableColumns virtual_columns = virtual_header.cloneEmptyColumns();`

Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00			`auto input_format = FormatFactory::instance().getInputFormat(`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`storage.getFormatName(), *buffer, non_virtual_header, context, max_block_size);`
attempt to fix kafka parsing performance regression https://github.com/ClickHouse/ClickHouse/issues/7261 2019-11-26 23:46:19 +00:00
Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00			`InputPort port(input_format->getPort().getHeader(), input_format.get());`
			`connect(input_format->getPort(), port);`
			`port.setNeeded();`
attempt to fix kafka parsing performance regression https://github.com/ClickHouse/ClickHouse/issues/7261 2019-11-26 23:46:19 +00:00
more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`auto read_kafka_message = [&]`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`{`
more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`size_t new_rows = 0;`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00			`while (true)`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`{`
Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00			`auto status = input_format->prepare();`

			`switch (status)`
			`{`
			`case IProcessor::Status::Ready:`
			`input_format->work();`
			`break;`

			`case IProcessor::Status::Finished:`
			`input_format->resetParser();`
more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`return new_rows;`
Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00
			`case IProcessor::Status::PortFull:`
			`{`
get rid of cloneWithColumns in internal loop and some other trash 2019-11-29 10:46:25 +00:00			`auto chunk = port.pull();`
Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`// that was returning bad value before https://github.com/ClickHouse/ClickHouse/pull/8005`
			`// if will be backported should go together with #8005`
			`auto chunk_rows = chunk.getNumRows();`
			`new_rows += chunk_rows;`
get rid of cloneWithColumns in internal loop and some other trash 2019-11-29 10:46:25 +00:00
			`auto columns = chunk.detachColumns();`
			`for (size_t i = 0, s = columns.size(); i < s; ++i)`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`{`
get rid of cloneWithColumns in internal loop and some other trash 2019-11-29 10:46:25 +00:00			`result_columns[i]->insertRangeFrom(*columns[i], 0, columns[i]->size());`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`}`
Get rid of InputStream layer for Kafka, use InputStream directly. Reopening port during reset. 2019-11-28 16:43:06 +00:00			`break;`
			`}`
			`case IProcessor::Status::NeedData:`
			`case IProcessor::Status::Async:`
			`case IProcessor::Status::Wait:`
			`case IProcessor::Status::ExpandPipeline:`
			`throw Exception("Source processor returned status " + IProcessor::statusToName(status), ErrorCodes::LOGICAL_ERROR);`
			`}`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`}`
			`};`

more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`size_t total_rows = 0;`
Make the formats like RowBinaryWithNamesAndTypes work in Kafka & do not try to parse buffer when it at eof 2019-12-03 10:44:27 +00:00
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`while (true)`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`{`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`buffer->allowNext();`

			`// some formats (like RowBinaryWithNamesAndTypes / CSVWithNames)`
			`// throw an exception from readPrefix when buffer in empty`
			`if (buffer->eof())`
			`break;`

more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`auto new_rows = read_kafka_message();`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00
			`auto _topic = buffer->currentTopic();`
			`auto _key = buffer->currentKey();`
			`auto _offset = buffer->currentOffset();`
			`auto _partition = buffer->currentPartition();`
			`auto _timestamp_raw = buffer->currentTimestamp();`
			`auto _timestamp = _timestamp_raw ? std::chrono::duration_cast<std::chrono::seconds>(_timestamp_raw->get_timestamp()).count()`
			`: 0;`

Fix for timestamp & style 2019-12-05 21:21:15 +00:00			`for (size_t i = 0; i < new_rows; ++i)`
			`{`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`virtual_columns[0]->insert(_topic);`
			`virtual_columns[1]->insert(_key);`
			`virtual_columns[2]->insert(_offset);`
			`virtual_columns[3]->insert(_partition);`
Fix for timestamp & style 2019-12-05 21:21:15 +00:00			`if (_timestamp_raw)`
			`{`
			`virtual_columns[4]->insert(_timestamp);`
			`}`
			`else`
			`{`
			`virtual_columns[4]->insertDefault();`
			`}`
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`}`

more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`total_rows = total_rows + new_rows;`
Make the formats like RowBinaryWithNamesAndTypes work in Kafka & do not try to parse buffer when it at eof 2019-12-03 10:44:27 +00:00			`if (!new_rows \|\| total_rows >= max_block_size \|\| !checkTimeLimit())`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`break;`
			`}`
Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00
more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`if (total_rows == 0)`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`return Block();`
Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00
Fix Native format in Kafka 2019-12-03 21:12:47 +00:00			`/// MATERIALIZED columns can be added here, but I think`
			`// they are not needed here:`
			`// and it's misleading to use them here,`
			`// as columns 'materialized' that way stays 'ephemeral'`
			`// i.e. will not be stored anythere`
			`// IF needed any extra columns can be added using DEFAULT they can be added at MV level if needed,`

get rid of cloneWithColumns in internal loop and some other trash 2019-11-29 10:46:25 +00:00			`auto result_block = non_virtual_header.cloneWithColumns(std::move(result_columns));`
more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00			`auto virtual_block = virtual_header.cloneWithColumns(std::move(virtual_columns));`

			`for (const auto & column : virtual_block.getColumnsWithTypeAndName())`
make virtual_columns local 2019-11-29 06:21:31 +00:00			`result_block.insert(column);`
more progress - cleanup internal cycles 2019-11-28 23:06:03 +00:00
Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`return ConvertingBlockInputStream(`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`context,`
make virtual_columns local 2019-11-29 06:21:31 +00:00			`std::make_shared<OneBlockInputStream>(result_block),`
Always read and insert Kafka messages as a whole (#6950) * Always read and insert Kafka messages as a whole. 2019-09-20 12:12:32 +00:00			`getHeader(),`
			`ConvertingBlockInputStream::MatchColumnsMode::Name)`
Use read callback to populate virtual columns in Kafka Engine 2019-05-23 13:20:25 +00:00			`.read();`
[WIP] refactoring 2019-05-22 19:38:43 +00:00			`}`

Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`void KafkaBlockInputStream::readSuffixImpl()`
Commit to Kafka explicitly after the writing is finalized (#7175) 2019-10-02 21:17:19 +00:00			`{`
			`broken = false;`

			`if (commit_in_suffix)`
			`commit();`
			`}`

			`void KafkaBlockInputStream::commit()`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Implement support for insertion into Kafka tables (#6012) * Add write-callback on each row for RowOutputStream * Fix build of new rdkafka library * Poll messages if Kafka outgoing queue is full * Add test * Add test producer-consumer * Truncate delimiter from last row in message 2019-08-20 11:17:57 +00:00			`if (!buffer)`
			`return;`

Fix kafka tests (#6805) * Commit offsets more precisely * Get rid of DelimitedReadBuffer since read buffers don't line up well * Increase timeouts 2019-09-04 21:25:33 +00:00			`buffer->commit();`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`

Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`}`