ClickHouse/dbms/src/Storages/MergeTree/MergeTreePartition.cpp

#include <Storages/MergeTree/MergeTreePartition.h>
#include <Storages/MergeTree/MergeTreeData.h>
#include <Storages/MergeTree/MergeTreeDataPart.h>
#include <IO/ReadBufferFromFile.h>
#include <IO/HashingWriteBuffer.h>
#include <Common/FieldVisitors.h>
#include <DataTypes/DataTypeDate.h>
#include <Common/SipHash.h>
#include <Common/typeid_cast.h>
#include <Common/hex.h>

#include <Poco/File.h>

namespace DB
{

static ReadBufferFromFile openForReading(const String & path)
{
    return ReadBufferFromFile(path, std::min(static_cast<Poco::File::FileSize>(DBMS_DEFAULT_BUFFER_SIZE), Poco::File(path).getSize()));
}

/// NOTE: This ID is used to create part names which are then persisted in ZK and as directory names on the file system.
/// So if you want to change this method, be sure to guarantee compatibility with existing table data.
String MergeTreePartition::getID(const MergeTreeData & storage) const
{
    if (value.size() != storage.partition_key_sample.columns())
        throw Exception("Invalid partition key size: " + toString(value.size()), ErrorCodes::LOGICAL_ERROR);

    if (value.empty())
        return "all"; /// It is tempting to use an empty string here. But that would break directory structure in ZK.

    /// In case all partition fields are represented by integral types, try to produce a human-readable ID.
    /// Otherwise use a hex-encoded hash.
    bool are_all_integral = true;
    for (const Field & field : value)
    {
        if (field.getType() != Field::Types::UInt64 && field.getType() != Field::Types::Int64)
        {
            are_all_integral = false;
            break;
        }
    }

    String result;

    if (are_all_integral)
    {
        FieldVisitorToString to_string_visitor;
        for (size_t i = 0; i < value.size(); ++i)
        {
            if (i > 0)
                result += '-';

            if (typeid_cast<const DataTypeDate *>(storage.partition_key_sample.getByPosition(i).type.get()))
                result += toString(DateLUT::instance().toNumYYYYMMDD(DayNum(value[i].safeGet<UInt64>())));
            else
                result += applyVisitor(to_string_visitor, value[i]);

            /// It is tempting to output DateTime as YYYYMMDDhhmmss, but that would make partition ID
            /// timezone-dependent.
        }

        return result;
    }

    SipHash hash;
    FieldVisitorHash hashing_visitor(hash);
    for (const Field & field : value)
        applyVisitor(hashing_visitor, field);

    char hash_data[16];
    hash.get128(hash_data);
    result.resize(32);
    for (size_t i = 0; i < 16; ++i)
        writeHexByteLowercase(hash_data[i], &result[2 * i]);

    return result;
}

void MergeTreePartition::serializeTextQuoted(const MergeTreeData & storage, WriteBuffer & out, const FormatSettings & format_settings) const
{
    size_t key_size = storage.partition_key_sample.columns();

    if (key_size == 0)
    {
        writeCString("tuple()", out);
        return;
    }

    if (key_size > 1)
        writeChar('(', out);

    for (size_t i = 0; i < key_size; ++i)
    {
        if (i > 0)
            writeCString(", ", out);

        const DataTypePtr & type = storage.partition_key_sample.getByPosition(i).type;
        auto column = type->createColumn();
        column->insert(value[i]);
        type->serializeTextQuoted(*column, 0, out, format_settings);
    }

    if (key_size > 1)
        writeChar(')', out);
}

void MergeTreePartition::load(const MergeTreeData & storage, const String & part_path)
{
    if (!storage.partition_expr)
        return;

    ReadBufferFromFile file = openForReading(part_path + "partition.dat");
    value.resize(storage.partition_key_sample.columns());
    for (size_t i = 0; i < storage.partition_key_sample.columns(); ++i)
        storage.partition_key_sample.getByPosition(i).type->deserializeBinary(value[i], file);
}

void MergeTreePartition::store(const MergeTreeData & storage, const String & part_path, MergeTreeDataPartChecksums & checksums) const
{
    if (!storage.partition_expr)
        return;

    WriteBufferFromFile out(part_path + "partition.dat");
    HashingWriteBuffer out_hashing(out);
    for (size_t i = 0; i < value.size(); ++i)
        storage.partition_key_sample.getByPosition(i).type->serializeBinary(value[i], out_hashing);
    out_hashing.next();
    checksums.files["partition.dat"].file_size = out_hashing.count();
    checksums.files["partition.dat"].file_hash = out_hashing.getHash();
}

}
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`#include <Storages/MergeTree/MergeTreePartition.h>`
			`#include <Storages/MergeTree/MergeTreeData.h>`
			`#include <Storages/MergeTree/MergeTreeDataPart.h>`
			`#include <IO/ReadBufferFromFile.h>`
			`#include <IO/HashingWriteBuffer.h>`
Core/FieldVisitors.h -> Common/FieldVisitors.h Core/Progress.h -> IO/Progress.h tests: sudo --non-interactive Fix freebsd link 2017-11-24 13:55:31 +00:00			`#include <Common/FieldVisitors.h>`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`#include <DataTypes/DataTypeDate.h>`
			`#include <Common/SipHash.h>`
			`#include <Common/typeid_cast.h>`
			`#include <Common/hex.h>`

			`#include <Poco/File.h>`

			`namespace DB`
			`{`

			`static ReadBufferFromFile openForReading(const String & path)`
			`{`
			`return ReadBufferFromFile(path, std::min(static_cast<Poco::File::FileSize>(DBMS_DEFAULT_BUFFER_SIZE), Poco::File(path).getSize()));`
			`}`

add comments [#CLICKHOUSE-3000] 2017-09-13 16:22:04 +00:00			`/// NOTE: This ID is used to create part names which are then persisted in ZK and as directory names on the file system.`
			`/// So if you want to change this method, be sure to guarantee compatibility with existing table data.`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`String MergeTreePartition::getID(const MergeTreeData & storage) const`
			`{`
forbid non-deterministic functions in primary and partition keys [#CLICKHOUSE-3455] 2018-02-21 17:05:21 +00:00			`if (value.size() != storage.partition_key_sample.columns())`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`throw Exception("Invalid partition key size: " + toString(value.size()), ErrorCodes::LOGICAL_ERROR);`

			`if (value.empty())`
add comments [#CLICKHOUSE-3000] 2017-09-13 16:22:04 +00:00			`return "all"; /// It is tempting to use an empty string here. But that would break directory structure in ZK.`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00
add comments [#CLICKHOUSE-3000] 2017-09-13 16:22:04 +00:00			`/// In case all partition fields are represented by integral types, try to produce a human-readable ID.`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`/// Otherwise use a hex-encoded hash.`
			`bool are_all_integral = true;`
			`for (const Field & field : value)`
			`{`
			`if (field.getType() != Field::Types::UInt64 && field.getType() != Field::Types::Int64)`
			`{`
			`are_all_integral = false;`
			`break;`
			`}`
			`}`

			`String result;`

			`if (are_all_integral)`
			`{`
			`FieldVisitorToString to_string_visitor;`
			`for (size_t i = 0; i < value.size(); ++i)`
			`{`
			`if (i > 0)`
			`result += '-';`

forbid non-deterministic functions in primary and partition keys [#CLICKHOUSE-3455] 2018-02-21 17:05:21 +00:00			`if (typeid_cast<const DataTypeDate *>(storage.partition_key_sample.getByPosition(i).type.get()))`
Changed DayNum_t to DayNum as Amos Bird suggested [#CLICKHOUSE-3] 2018-05-25 13:29:15 +00:00			`result += toString(DateLUT::instance().toNumYYYYMMDD(DayNum(value[i].safeGet<UInt64>())));`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`else`
			`result += applyVisitor(to_string_visitor, value[i]);`
add comments [#CLICKHOUSE-3000] 2017-09-13 16:22:04 +00:00
			`/// It is tempting to output DateTime as YYYYMMDDhhmmss, but that would make partition ID`
			`/// timezone-dependent.`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`}`

			`return result;`
			`}`

			`SipHash hash;`
			`FieldVisitorHash hashing_visitor(hash);`
			`for (const Field & field : value)`
			`applyVisitor(hashing_visitor, field);`

			`char hash_data[16];`
			`hash.get128(hash_data);`
			`result.resize(32);`
			`for (size_t i = 0; i < 16; ++i)`
			`writeHexByteLowercase(hash_data[i], &result[2 * i]);`

			`return result;`
			`}`

Passing settings to ser/de of data types: development #1710 2018-06-08 01:51:55 +00:00			`void MergeTreePartition::serializeTextQuoted(const MergeTreeData & storage, WriteBuffer & out, const FormatSettings & format_settings) const`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`{`
forbid non-deterministic functions in primary and partition keys [#CLICKHOUSE-3455] 2018-02-21 17:05:21 +00:00			`size_t key_size = storage.partition_key_sample.columns();`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00
			`if (key_size == 0)`
			`{`
			`writeCString("tuple()", out);`
			`return;`
			`}`

			`if (key_size > 1)`
			`writeChar('(', out);`

			`for (size_t i = 0; i < key_size; ++i)`
			`{`
			`if (i > 0)`
			`writeCString(", ", out);`

forbid non-deterministic functions in primary and partition keys [#CLICKHOUSE-3455] 2018-02-21 17:05:21 +00:00			`const DataTypePtr & type = storage.partition_key_sample.getByPosition(i).type;`
Better semantic of sharing columns: development [#CLICKHOUSE-2]. 2017-12-15 20:48:46 +00:00			`auto column = type->createColumn();`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`column->insert(value[i]);`
Passing settings to ser/de of data types: development #1710 2018-06-08 01:51:55 +00:00			`type->serializeTextQuoted(*column, 0, out, format_settings);`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`}`

			`if (key_size > 1)`
			`writeChar(')', out);`
			`}`

			`void MergeTreePartition::load(const MergeTreeData & storage, const String & part_path)`
			`{`
			`if (!storage.partition_expr)`
			`return;`

			`ReadBufferFromFile file = openForReading(part_path + "partition.dat");`
forbid non-deterministic functions in primary and partition keys [#CLICKHOUSE-3455] 2018-02-21 17:05:21 +00:00			`value.resize(storage.partition_key_sample.columns());`
			`for (size_t i = 0; i < storage.partition_key_sample.columns(); ++i)`
			`storage.partition_key_sample.getByPosition(i).type->deserializeBinary(value[i], file);`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`}`

			`void MergeTreePartition::store(const MergeTreeData & storage, const String & part_path, MergeTreeDataPartChecksums & checksums) const`
			`{`
			`if (!storage.partition_expr)`
			`return;`

			`WriteBufferFromFile out(part_path + "partition.dat");`
			`HashingWriteBuffer out_hashing(out);`
			`for (size_t i = 0; i < value.size(); ++i)`
forbid non-deterministic functions in primary and partition keys [#CLICKHOUSE-3455] 2018-02-21 17:05:21 +00:00			`storage.partition_key_sample.getByPosition(i).type->serializeBinary(value[i], out_hashing);`
store rows count for part on disk to allow tables without fixed size columns [#CLICKHOUSE-3000] 2017-10-24 14:11:53 +00:00			`out_hashing.next();`
safeguards to protect against distinct partition values with the same partition_id [#CLICKHOUSE-3000] 2017-09-11 17:55:41 +00:00			`checksums.files["partition.dat"].file_size = out_hashing.count();`
			`checksums.files["partition.dat"].file_hash = out_hashing.getHash();`
			`}`

			`}`