ClickHouse/dbms/src/Storages/Kafka/ReadBufferFromKafkaConsumer.cpp

#include <Storages/Kafka/ReadBufferFromKafkaConsumer.h>

namespace DB
{

using namespace std::chrono_literals;
ReadBufferFromKafkaConsumer::ReadBufferFromKafkaConsumer(
    ConsumerPtr consumer_, Poco::Logger * log_, size_t max_batch_size, size_t poll_timeout_, bool intermediate_commit_)
    : ReadBuffer(nullptr, 0)
    , consumer(consumer_)
    , log(log_)
    , batch_size(max_batch_size)
    , poll_timeout(poll_timeout_)
    , intermediate_commit(intermediate_commit_)
    , current(messages.begin())
{
}

ReadBufferFromKafkaConsumer::~ReadBufferFromKafkaConsumer()
{
    /// NOTE: see https://github.com/edenhill/librdkafka/issues/2077
    consumer->unsubscribe();
    consumer->unassign();
    while (consumer->get_consumer_queue().next_event(1s));
}

void ReadBufferFromKafkaConsumer::commit()
{
    if (current != messages.end())
    {
        /// Since we can poll more messages than we already processed,
        /// commit only processed messages.
        consumer->async_commit(*current);
    }
    else
    {
        /// Commit everything we polled so far because either:
        /// - read all polled messages (current == messages.end()),
        /// - read nothing at all (messages.empty()),
        /// - stalled.
        consumer->async_commit();
    }

    const auto & offsets = consumer->get_offsets_committed(consumer->get_assignment());
    for (const auto & topic_part : offsets)
    {
        LOG_TRACE(
            log,
            "Committed offset " << topic_part.get_offset() << " (topic: " << topic_part.get_topic()
                                << ", partition: " << topic_part.get_partition() << ")");
    }

    stalled = false;
}

void ReadBufferFromKafkaConsumer::subscribe(const Names & topics)
{
    {
        String message = "Subscribed to topics:";
        for (const auto & topic : consumer->get_subscription())
            message += " " + topic;
        LOG_TRACE(log, message);
    }

    {
        String message = "Assigned to topics:";
        for (const auto & toppar : consumer->get_assignment())
            message += " " + toppar.get_topic();
        LOG_TRACE(log, message);
    }

    consumer->resume();

    // While we wait for an assignment after subscribtion, we'll poll zero messages anyway.
    // If we're doing a manual select then it's better to get something after a wait, then immediate nothing.
    if (consumer->get_subscription().empty())
    {
        consumer->pause(); // don't accidentally read any messages
        consumer->subscribe(topics);
        consumer->poll(5s);
        consumer->resume();

        // FIXME: if we failed to receive "subscribe" response while polling and destroy consumer now, then we may hang up.
        //        see https://github.com/edenhill/librdkafka/issues/2077
    }

    stalled = false;
}

void ReadBufferFromKafkaConsumer::unsubscribe()
{
    LOG_TRACE(log, "Re-joining claimed consumer after failure");

    messages.clear();
    current = messages.begin();
    BufferBase::set(nullptr, 0, 0);

    consumer->unsubscribe();
}

/// Do commit messages implicitly after we processed the previous batch.
bool ReadBufferFromKafkaConsumer::nextImpl()
{
    /// NOTE: ReadBuffer was implemented with an immutable underlying contents in mind.
    ///       If we failed to poll any message once - don't try again.
    ///       Otherwise, the |poll_timeout| expectations get flawn.
    if (stalled)
        return false;

    if (current == messages.end())
    {
        if (intermediate_commit)
            commit();

        /// Don't drop old messages immediately, since we may need them for virtual columns.
        auto new_messages = consumer->poll_batch(batch_size, std::chrono::milliseconds(poll_timeout));
        if (new_messages.empty())
        {
            LOG_TRACE(log, "Stalled");
            stalled = true;
            return false;
        }
        messages = std::move(new_messages);
        current = messages.begin();

        LOG_TRACE(log, "Polled batch of " << messages.size() << " messages");
    }

    if (auto err = current->get_error())
    {
        ++current;

        // TODO: should throw exception instead
        LOG_ERROR(log, "Consumer error: " << err);
        return false;
    }

    // XXX: very fishy place with const casting.
    auto new_position = reinterpret_cast<char *>(const_cast<unsigned char *>(current->get_payload().get_data()));
    BufferBase::set(new_position, current->get_payload().get_size(), 0);

    ++current;

    return true;
}

}
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`#include <Storages/Kafka/ReadBufferFromKafkaConsumer.h>`

			`namespace DB`
			`{`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00
Fix the hang on dropping Kafka table when there is no mat. views 2019-05-27 17:25:34 +00:00			`using namespace std::chrono_literals;`
Don't do premature subscription to topics 2019-06-19 16:15:30 +00:00			`ReadBufferFromKafkaConsumer::ReadBufferFromKafkaConsumer(`
			`ConsumerPtr consumer_, Poco::Logger * log_, size_t max_batch_size, size_t poll_timeout_, bool intermediate_commit_)`
			`: ReadBuffer(nullptr, 0)`
			`, consumer(consumer_)`
			`, log(log_)`
			`, batch_size(max_batch_size)`
			`, poll_timeout(poll_timeout_)`
			`, intermediate_commit(intermediate_commit_)`
			`, current(messages.begin())`
			`{`
			`}`
Fix the hang on dropping Kafka table when there is no mat. views 2019-05-27 17:25:34 +00:00
			`ReadBufferFromKafkaConsumer::~ReadBufferFromKafkaConsumer()`
			`{`
			`/// NOTE: see https://github.com/edenhill/librdkafka/issues/2077`
			`consumer->unsubscribe();`
			`consumer->unassign();`
Fix style 2019-06-03 14:36:59 +00:00			`while (consumer->get_consumer_queue().next_event(1s));`
Fix the hang on dropping Kafka table when there is no mat. views 2019-05-27 17:25:34 +00:00			`}`

Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`void ReadBufferFromKafkaConsumer::commit()`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Commit offsets for SELECTing from Kafka table too 2019-06-17 16:27:18 +00:00			`if (current != messages.end())`
			`{`
			`/// Since we can poll more messages than we already processed,`
			`/// commit only processed messages.`
			`consumer->async_commit(*current);`
			`}`
			`else`
			`{`
			`/// Commit everything we polled so far because either:`
			`/// - read all polled messages (current == messages.end()),`
			`/// - read nothing at all (messages.empty()),`
			`/// - stalled.`
			`consumer->async_commit();`
			`}`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00
Commit offsets for SELECTing from Kafka table too 2019-06-17 16:27:18 +00:00			`const auto & offsets = consumer->get_offsets_committed(consumer->get_assignment());`
			`for (const auto & topic_part : offsets)`
			`{`
			`LOG_TRACE(`
			`log,`
			`"Committed offset " << topic_part.get_offset() << " (topic: " << topic_part.get_topic()`
			`<< ", partition: " << topic_part.get_partition() << ")");`
			`}`
Keep on reading of new Kafka messages after stalling (#5852) 2019-07-03 16:51:11 +00:00
			`stalled = false;`
Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`}`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`void ReadBufferFromKafkaConsumer::subscribe(const Names & topics)`
			`{`
Always resume consumer before subscription. Also add more logs to see the difference between rd_kafka_assignment() vs rd_kafka_subscription() 2019-07-19 15:01:34 +00:00			`{`
			`String message = "Subscribed to topics:";`
			`for (const auto & topic : consumer->get_subscription())`
			`message += " " + topic;`
			`LOG_TRACE(log, message);`
			`}`

			`{`
			`String message = "Assigned to topics:";`
			`for (const auto & toppar : consumer->get_assignment())`
			`message += " " + toppar.get_topic();`
			`LOG_TRACE(log, message);`
			`}`

			`consumer->resume();`

Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`// While we wait for an assignment after subscribtion, we'll poll zero messages anyway.`
			`// If we're doing a manual select then it's better to get something after a wait, then immediate nothing.`
			`if (consumer->get_subscription().empty())`
			`{`
			`consumer->pause(); // don't accidentally read any messages`
			`consumer->subscribe(topics);`
			`consumer->poll(5s);`
			`consumer->resume();`
Don't do premature subscription to topics 2019-06-19 16:15:30 +00:00
			`// FIXME: if we failed to receive "subscribe" response while polling and destroy consumer now, then we may hang up.`
			`// see https://github.com/edenhill/librdkafka/issues/2077`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`}`
Freeze the Kafka buffer after first empty response (#5283) * Check inside inferior streams for cancellation while reading. * Stop reading from Kafka buffer after first empty read. 2019-05-15 16:11:50 +00:00
			`stalled = false;`
Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`}`

			`void ReadBufferFromKafkaConsumer::unsubscribe()`
			`{`
			`LOG_TRACE(log, "Re-joining claimed consumer after failure");`
Clear Kafka's buffer if an invalid message is found. 2019-07-16 15:27:42 +00:00
			`messages.clear();`
			`current = messages.begin();`
			`BufferBase::set(nullptr, 0, 0);`

Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`consumer->unsubscribe();`
			`}`

Merge remote-tracking branch 'upstream/master' into issue-5286 2019-06-24 11:42:58 +00:00			`/// Do commit messages implicitly after we processed the previous batch.`
Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`bool ReadBufferFromKafkaConsumer::nextImpl()`
			`{`
Add setting to regulate Kafka committing policy. 2019-05-16 15:20:30 +00:00			`/// NOTE: ReadBuffer was implemented with an immutable underlying contents in mind.`
Freeze the Kafka buffer after first empty response (#5283) * Check inside inferior streams for cancellation while reading. * Stop reading from Kafka buffer after first empty read. 2019-05-15 16:11:50 +00:00			`/// If we failed to poll any message once - don't try again.`
			`/// Otherwise, the \|poll_timeout\| expectations get flawn.`
			`if (stalled)`
			`return false;`

Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`if (current == messages.end())`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Add setting to regulate Kafka committing policy. 2019-05-16 15:20:30 +00:00			`if (intermediate_commit)`
			`commit();`
Fix dropping message to early when stalling 2019-06-21 14:29:10 +00:00
			`/// Don't drop old messages immediately, since we may need them for virtual columns.`
			`auto new_messages = consumer->poll_batch(batch_size, std::chrono::milliseconds(poll_timeout));`
			`if (new_messages.empty())`
			`{`
			`LOG_TRACE(log, "Stalled");`
			`stalled = true;`
			`return false;`
			`}`
			`messages = std::move(new_messages);`
Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`current = messages.begin();`

			`LOG_TRACE(log, "Polled batch of " << messages.size() << " messages");`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`}`
Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00
			`if (auto err = current->get_error())`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`{`
Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`++current;`

			`// TODO: should throw exception instead`
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`LOG_ERROR(log, "Consumer error: " << err);`
			`return false;`
			`}`

			`// XXX: very fishy place with const casting.`
Poll messages in batches of `max_block_size` size. 2019-01-25 12:48:59 +00:00			`auto new_position = reinterpret_cast<char >(const_cast<unsigned char >(current->get_payload().get_data()));`
			`BufferBase::set(new_position, current->get_payload().get_size(), 0);`

			`++current;`
Fix losing the next message after a broken one. 2019-01-23 11:00:43 +00:00
Split StorageKafka.cpp on smaller files per class 2019-01-21 14:02:03 +00:00			`return true;`
			`}`

Do not drop Kafka consumer buffers after closing stream 2019-04-22 13:23:05 +00:00			`}`