2013-09-08 05:53:10 +00:00
|
|
|
|
#pragma once
|
|
|
|
|
|
|
|
|
|
#include <vector>
|
|
|
|
|
|
|
|
|
|
#include <DB/IO/ReadBufferFromFile.h>
|
|
|
|
|
#include <DB/IO/CompressedReadBuffer.h>
|
|
|
|
|
#include <DB/IO/UncompressedCache.h>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
namespace DB
|
|
|
|
|
{
|
|
|
|
|
|
|
|
|
|
/** Буфер для чтения из сжатого файла с использованием кэша разжатых блоков.
|
|
|
|
|
* Кэш внешний - передаётся в качестве аргумента в конструктор.
|
|
|
|
|
* Позволяет увеличить производительность в случае, когда часто читаются одни и те же блоки.
|
|
|
|
|
* Недостатки:
|
|
|
|
|
* - в случае, если нужно читать много данных подряд, но из них только часть закэширована, приходится делать seek-и.
|
|
|
|
|
*/
|
|
|
|
|
class CachedCompressedReadBuffer : public ReadBuffer
|
|
|
|
|
{
|
|
|
|
|
private:
|
|
|
|
|
const std::string path;
|
2013-12-22 21:36:54 +00:00
|
|
|
|
size_t cur_begin_offset; /// Смещение в сжатом файле, соответствующее working_buffer.begin().
|
|
|
|
|
size_t cur_end_offset; /// Смещение в сжатом файле, соответствующее working_buffer.end().
|
2013-11-26 11:55:11 +00:00
|
|
|
|
UncompressedCache * cache;
|
2013-09-08 05:53:10 +00:00
|
|
|
|
size_t buf_size;
|
|
|
|
|
|
|
|
|
|
/// SharedPtr - для ленивой инициализации (только в случае кэш-промаха).
|
|
|
|
|
Poco::SharedPtr<ReadBufferFromFile> in;
|
|
|
|
|
Poco::SharedPtr<CompressedReadBuffer> compressed_in;
|
|
|
|
|
|
|
|
|
|
/// Кусок данных из кэша, или кусок считанных данных, который мы положим в кэш.
|
|
|
|
|
UncompressedCache::CellPtr owned_cell;
|
|
|
|
|
|
|
|
|
|
|
2013-12-22 17:28:47 +00:00
|
|
|
|
void initInput()
|
|
|
|
|
{
|
|
|
|
|
if (!compressed_in)
|
|
|
|
|
{
|
|
|
|
|
in = new ReadBufferFromFile(path, buf_size);
|
|
|
|
|
compressed_in = new CompressedReadBuffer(*in);
|
|
|
|
|
}
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
2013-09-08 05:53:10 +00:00
|
|
|
|
bool nextImpl()
|
|
|
|
|
{
|
2013-11-26 11:55:11 +00:00
|
|
|
|
if (cache)
|
|
|
|
|
{
|
2013-12-22 21:36:54 +00:00
|
|
|
|
/// Проверим наличие разжатого блока в кэше, захватим владение этим блоком, если он есть.
|
|
|
|
|
|
|
|
|
|
cur_begin_offset = cur_end_offset;
|
|
|
|
|
UInt128 key = {0, 0};
|
|
|
|
|
|
2013-11-26 11:55:11 +00:00
|
|
|
|
key = cache->hash(path, cur_begin_offset);
|
|
|
|
|
owned_cell = cache->get(key);
|
2013-12-22 21:36:54 +00:00
|
|
|
|
|
|
|
|
|
if (!owned_cell)
|
|
|
|
|
{
|
|
|
|
|
/// Если нет - надо прочитать его из файла.
|
|
|
|
|
initInput();
|
|
|
|
|
in->seek(cur_begin_offset);
|
|
|
|
|
|
|
|
|
|
owned_cell = new UncompressedCache::Cell;
|
|
|
|
|
owned_cell->key = key;
|
|
|
|
|
|
|
|
|
|
/// Разжимать будем в кусок памяти, который будет в кэше.
|
|
|
|
|
compressed_in->setMemory(owned_cell->data);
|
|
|
|
|
|
|
|
|
|
size_t old_count = in->count();
|
|
|
|
|
compressed_in->next();
|
|
|
|
|
owned_cell->compressed_size = in->count() - old_count;
|
|
|
|
|
|
|
|
|
|
/// Положим данные в кэш.
|
|
|
|
|
cache->set(owned_cell);
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
if (owned_cell->data.m_size == 0)
|
|
|
|
|
return false;
|
|
|
|
|
|
|
|
|
|
internal_buffer = Buffer(owned_cell->data.m_data, owned_cell->data.m_data + owned_cell->data.m_size);
|
|
|
|
|
working_buffer = Buffer(owned_cell->data.m_data, owned_cell->data.m_data + owned_cell->data.m_size);
|
|
|
|
|
pos = working_buffer.begin();
|
|
|
|
|
|
|
|
|
|
cur_end_offset += owned_cell->compressed_size;
|
2013-11-26 11:55:11 +00:00
|
|
|
|
}
|
|
|
|
|
else
|
|
|
|
|
{
|
2013-12-22 21:36:54 +00:00
|
|
|
|
cur_begin_offset = cur_end_offset;
|
2013-12-22 17:28:47 +00:00
|
|
|
|
initInput();
|
2013-11-26 11:55:11 +00:00
|
|
|
|
in->seek(cur_begin_offset);
|
2013-09-08 05:53:10 +00:00
|
|
|
|
|
|
|
|
|
size_t old_count = in->count();
|
2013-12-22 22:36:12 +00:00
|
|
|
|
if (!compressed_in->next())
|
|
|
|
|
return false;
|
2013-12-22 21:36:54 +00:00
|
|
|
|
cur_end_offset += in->count() - old_count;
|
2013-09-08 05:53:10 +00:00
|
|
|
|
|
2013-12-23 05:56:59 +00:00
|
|
|
|
syncWithCompressedInput();
|
2013-09-08 05:53:10 +00:00
|
|
|
|
}
|
2013-12-22 21:36:54 +00:00
|
|
|
|
|
2013-09-08 05:53:10 +00:00
|
|
|
|
return true;
|
|
|
|
|
}
|
|
|
|
|
|
2013-12-23 05:56:59 +00:00
|
|
|
|
|
|
|
|
|
void syncWithCompressedInput()
|
|
|
|
|
{
|
|
|
|
|
internal_buffer = compressed_in->buffer();
|
|
|
|
|
working_buffer = compressed_in->buffer();
|
|
|
|
|
pos = compressed_in->position();
|
|
|
|
|
}
|
|
|
|
|
|
2013-09-08 05:53:10 +00:00
|
|
|
|
public:
|
2013-12-11 13:36:07 +00:00
|
|
|
|
/// Если cache_ == NULL, работает без кеша - как CompressedReadBuffer.
|
2013-11-26 11:55:11 +00:00
|
|
|
|
CachedCompressedReadBuffer(const std::string & path_, UncompressedCache * cache_, size_t buf_size_ = DBMS_DEFAULT_BUFFER_SIZE)
|
|
|
|
|
: ReadBuffer(NULL, 0), path(path_), cur_begin_offset(0), cur_end_offset(0), cache(cache_), buf_size(buf_size_)
|
|
|
|
|
{
|
|
|
|
|
}
|
|
|
|
|
|
2013-12-22 17:28:47 +00:00
|
|
|
|
|
2013-11-26 11:55:11 +00:00
|
|
|
|
void seek(size_t offset_in_compressed_file, size_t offset_in_decompressed_block)
|
2013-09-08 05:53:10 +00:00
|
|
|
|
{
|
2013-11-26 11:55:11 +00:00
|
|
|
|
if (offset_in_compressed_file == cur_begin_offset && offset_in_decompressed_block < working_buffer.size())
|
|
|
|
|
{
|
|
|
|
|
pos = working_buffer.begin() + offset_in_decompressed_block;
|
|
|
|
|
}
|
|
|
|
|
else
|
|
|
|
|
{
|
2013-12-22 21:36:54 +00:00
|
|
|
|
/// Как будто только что дочитали до нужного места.
|
2013-11-26 11:55:11 +00:00
|
|
|
|
cur_end_offset = offset_in_compressed_file;
|
2013-12-23 04:16:59 +00:00
|
|
|
|
|
2013-11-26 11:55:11 +00:00
|
|
|
|
pos = working_buffer.end();
|
|
|
|
|
next();
|
2013-12-23 04:16:59 +00:00
|
|
|
|
|
2013-11-26 11:55:11 +00:00
|
|
|
|
if (offset_in_decompressed_block > working_buffer.size())
|
|
|
|
|
throw Exception("Seek position is beyond the decompressed block", ErrorCodes::ARGUMENT_OUT_OF_BOUND);
|
2013-12-23 04:16:59 +00:00
|
|
|
|
|
|
|
|
|
if (unlikely(offset_in_decompressed_block == working_buffer.size()))
|
|
|
|
|
{
|
|
|
|
|
/** Если убрать эту ветку, то будет неправильно работать функция readBig в CompressedReadBuffer
|
|
|
|
|
* (курсор будет находиться в конце буфера, но данные не прочитаны)
|
|
|
|
|
*/
|
|
|
|
|
pos = working_buffer.end();
|
|
|
|
|
next();
|
|
|
|
|
}
|
|
|
|
|
else
|
|
|
|
|
pos += offset_in_decompressed_block;
|
2013-11-26 11:55:11 +00:00
|
|
|
|
}
|
2013-09-08 05:53:10 +00:00
|
|
|
|
}
|
2013-12-22 17:28:47 +00:00
|
|
|
|
|
2013-12-27 13:18:33 +00:00
|
|
|
|
/*
|
2013-12-22 17:28:47 +00:00
|
|
|
|
size_t readBig(char * to, size_t n)
|
|
|
|
|
{
|
|
|
|
|
/// Если кэш используется, то будем читать через него.
|
|
|
|
|
if (cache)
|
|
|
|
|
{
|
|
|
|
|
return read(to, n);
|
|
|
|
|
}
|
|
|
|
|
else
|
|
|
|
|
{
|
2013-12-23 05:56:59 +00:00
|
|
|
|
/// Иначе - вызываем метод CompressedReadBuffer. К сожалению, сложная обёртка.
|
2013-12-22 21:36:54 +00:00
|
|
|
|
cur_begin_offset = cur_end_offset;
|
2013-12-22 17:28:47 +00:00
|
|
|
|
initInput();
|
2013-12-22 21:36:54 +00:00
|
|
|
|
in->seek(cur_begin_offset);
|
|
|
|
|
|
|
|
|
|
size_t old_count = in->count();
|
2013-12-23 05:56:59 +00:00
|
|
|
|
compressed_in->position() = pos;
|
2013-12-22 21:36:54 +00:00
|
|
|
|
size_t res = compressed_in->readBig(to, n);
|
2013-12-23 05:56:59 +00:00
|
|
|
|
syncWithCompressedInput();
|
2013-12-22 21:36:54 +00:00
|
|
|
|
cur_end_offset += in->count() - old_count;
|
|
|
|
|
|
|
|
|
|
return res;
|
2013-12-22 17:28:47 +00:00
|
|
|
|
}
|
2013-12-27 13:18:33 +00:00
|
|
|
|
}*/
|
2013-09-08 05:53:10 +00:00
|
|
|
|
};
|
|
|
|
|
|
|
|
|
|
}
|