ClickHouse/dbms/include/DB/Storages/StorageLog.h

259 lines
9.2 KiB
C
Raw Normal View History

2011-10-31 17:55:06 +00:00
#pragma once
2010-03-18 19:32:14 +00:00
#include <set>
2010-03-18 19:32:14 +00:00
#include <Poco/File.h>
#include <Poco/RWLock.h>
2010-03-18 19:32:14 +00:00
#include <DB/Core/NamesAndTypes.h>
2011-10-24 12:10:59 +00:00
#include <DB/IO/ReadBufferFromFile.h>
#include <DB/IO/WriteBufferFromFile.h>
2010-06-04 18:25:25 +00:00
#include <DB/IO/CompressedReadBuffer.h>
#include <DB/IO/CompressedWriteBuffer.h>
2010-03-18 19:32:14 +00:00
#include <DB/Storages/IStorage.h>
2011-09-04 21:23:19 +00:00
#include <DB/DataStreams/IProfilingBlockInputStream.h>
#include <DB/DataStreams/IBlockOutputStream.h>
#include <DB/Common/FileChecker.h>
2010-03-18 19:32:14 +00:00
namespace DB
{
class StorageLog;
2012-01-10 22:11:51 +00:00
/** Смещение до каждой некоторой пачки значений.
* Эти пачки имеют одинаковый размер в разных столбцах.
* Они нужны, чтобы можно было читать данные в несколько потоков.
*/
struct Mark
{
size_t rows; /// Сколько строк содержится в этой пачке и всех предыдущих.
size_t offset; /// Смещение до пачки в сжатом файле.
};
2014-01-17 15:19:20 +00:00
2012-01-10 22:11:51 +00:00
typedef std::vector<Mark> Marks;
2011-09-04 21:23:19 +00:00
class LogBlockInputStream : public IProfilingBlockInputStream
2010-03-18 19:32:14 +00:00
{
public:
LogBlockInputStream(size_t block_size_, const Names & column_names_, StorageLog & storage_, size_t mark_number_, size_t rows_limit_);
2011-09-04 21:23:19 +00:00
String getName() const { return "LogBlockInputStream"; }
String getID() const;
2012-10-20 02:10:47 +00:00
protected:
Block readImpl();
2010-03-18 19:32:14 +00:00
private:
size_t block_size;
2011-08-28 05:13:24 +00:00
Names column_names;
2010-03-18 19:32:14 +00:00
StorageLog & storage;
2012-01-10 22:11:51 +00:00
size_t mark_number; /// С какой засечки читать данные
size_t rows_limit; /// Максимальное количество строк, которых можно прочитать
size_t rows_read;
2014-01-17 15:19:20 +00:00
size_t current_mark;
2010-03-18 19:32:14 +00:00
2010-03-18 20:52:28 +00:00
struct Stream
{
2012-01-10 22:11:51 +00:00
Stream(const std::string & data_path, size_t offset)
2012-06-21 18:14:38 +00:00
: plain(data_path, std::min(static_cast<size_t>(DBMS_DEFAULT_BUFFER_SIZE), Poco::File(data_path).getSize())),
compressed(plain)
2012-01-10 22:11:51 +00:00
{
2012-06-21 18:14:38 +00:00
if (offset)
plain.seek(offset);
2012-01-10 22:11:51 +00:00
}
2011-10-24 12:10:59 +00:00
ReadBufferFromFile plain;
2010-06-04 18:25:25 +00:00
CompressedReadBuffer compressed;
2010-03-18 20:52:28 +00:00
};
2014-04-22 22:43:55 +00:00
typedef std::map<std::string, std::unique_ptr<Stream> > FileStreams;
2010-03-18 19:32:14 +00:00
FileStreams streams;
2012-08-29 20:07:24 +00:00
void addStream(const String & name, const IDataType & type, size_t level = 0);
void readData(const String & name, const IDataType & type, IColumn & column, size_t max_rows_to_read, size_t level = 0, bool read_offsets = true);
2010-03-18 19:32:14 +00:00
};
class LogBlockOutputStream : public IBlockOutputStream
{
public:
LogBlockOutputStream(StorageLog & storage_);
~LogBlockOutputStream() { writeSuffix(); }
2010-03-18 19:32:14 +00:00
void write(const Block & block);
2013-09-15 01:40:29 +00:00
void writeSuffix();
2010-03-18 19:32:14 +00:00
private:
StorageLog & storage;
Poco::ScopedWriteRWLock lock;
2010-03-18 19:32:14 +00:00
2010-03-18 20:52:28 +00:00
struct Stream
{
2014-03-28 14:36:24 +00:00
Stream(const std::string & data_path, size_t max_compress_block_size) :
plain(data_path, max_compress_block_size, O_APPEND | O_CREAT | O_WRONLY),
compressed(plain)
2012-09-19 18:45:01 +00:00
{
plain_offset = Poco::File(data_path).getSize();
}
2011-10-24 12:10:59 +00:00
WriteBufferFromFile plain;
2010-06-04 18:25:25 +00:00
CompressedWriteBuffer compressed;
2012-09-19 18:45:01 +00:00
size_t plain_offset; /// Сколько байт было в файле на момент создания LogBlockOutputStream.
2013-09-15 01:40:29 +00:00
2013-09-26 19:16:43 +00:00
void finalize()
2013-09-15 01:40:29 +00:00
{
compressed.next();
2013-09-26 19:16:43 +00:00
plain.next();
2013-09-15 01:40:29 +00:00
}
2010-03-18 20:52:28 +00:00
};
typedef std::vector<std::pair<size_t, Mark> > MarksForColumns;
2014-04-22 22:43:55 +00:00
typedef std::map<std::string, std::unique_ptr<Stream> > FileStreams;
2010-03-18 19:32:14 +00:00
FileStreams streams;
typedef std::set<std::string> OffsetColumns;
WriteBufferFromFile marks_stream; /// Объявлен ниже lock, чтобы файл открывался при захваченном rwlock.
2012-08-29 20:07:24 +00:00
void addStream(const String & name, const IDataType & type, size_t level = 0);
void writeData(const String & name, const IDataType & type, const IColumn & column, MarksForColumns & out_marks, OffsetColumns & offset_columns, size_t level = 0);
void writeMarks(MarksForColumns marks);
2010-03-18 19:32:14 +00:00
};
/** Реализует хранилище, подходящее для логов.
2012-01-09 19:20:48 +00:00
* Ключи не поддерживаются.
2010-03-18 19:32:14 +00:00
* Данные хранятся в сжатом виде.
*/
class StorageLog : public IStorage
{
friend class LogBlockInputStream;
friend class LogBlockOutputStream;
public:
/** Подцепить таблицу с соответствующим именем, по соответствующему пути (с / на конце),
* (корректность имён и путей не проверяется)
* состоящую из указанных столбцов; создать файлы, если их нет.
*/
static StoragePtr create(
const std::string & path_,
const std::string & name_,
NamesAndTypesListPtr columns_,
const NamesAndTypesList & materialized_columns_,
const NamesAndTypesList & alias_columns_,
const ColumnDefaults & column_defaults_,
size_t max_compress_block_size_ = DEFAULT_MAX_COMPRESS_BLOCK_SIZE);
2010-03-18 19:32:14 +00:00
std::string getName() const { return "Log"; }
2011-08-15 02:24:44 +00:00
std::string getTableName() const { return name; }
2011-11-01 17:12:11 +00:00
const NamesAndTypesList & getColumnsList() const { return *columns; }
2010-03-18 19:32:14 +00:00
virtual BlockInputStreams read(
2011-08-09 15:57:33 +00:00
const Names & column_names,
2011-08-15 01:12:57 +00:00
ASTPtr query,
const Settings & settings,
2012-05-22 18:32:45 +00:00
QueryProcessingStage::Enum & processed_stage,
2012-01-09 19:20:48 +00:00
size_t max_block_size = DEFAULT_BLOCK_SIZE,
2012-05-30 04:45:49 +00:00
unsigned threads = 1);
2010-03-18 19:32:14 +00:00
2011-08-28 02:22:23 +00:00
BlockOutputStreamPtr write(
2011-08-15 01:12:57 +00:00
ASTPtr query);
2010-03-18 19:32:14 +00:00
void rename(const String & new_path_to_db, const String & new_database_name, const String & new_table_name);
2011-11-05 23:31:19 +00:00
/// Данные столбца
struct ColumnData
{
/// Задает номер столбца в файле с засечками.
/// Не обязательно совпадает с номером столбца среди столбцов таблицы: здесь нумеруются также столбцы с длинами массивов.
size_t column_index;
Poco::File data_file;
Marks marks;
};
typedef std::map<String, ColumnData> Files_t;
Files_t & getFiles() { return files; }
bool checkData() const override;
protected:
2012-06-18 06:19:13 +00:00
String path;
String name;
2011-11-01 17:12:11 +00:00
NamesAndTypesListPtr columns;
2010-03-18 19:32:14 +00:00
Poco::RWLock rwlock;
2014-01-17 15:19:20 +00:00
/// Название виртуального столбца, отвечающего за имя таблицы, из которой идет чтение. (Например "_table")
2014-01-17 15:19:20 +00:00
/// По умолчанию виртуальный столбец не поддерживается, но, например, он поддерживается в StorageChunks
String _table_column_name;
/// По номеру засечки получить имя таблицы, из которой идет чтение и номер последней засечки из этой таблицы.
/// По умолчанию виртуальный столбец не поддерживается, а значит при попытке его чтения нужно выбросить исключение.
virtual std::pair<String, size_t> getTableFromMark(size_t mark) const
{
throw Exception("There is no column " + _table_column_name + " in table " + getTableName(), ErrorCodes::NO_SUCH_COLUMN_IN_TABLE);
}
StorageLog(
const std::string & path_,
const std::string & name_,
NamesAndTypesListPtr columns_,
const NamesAndTypesList & materialized_columns_,
const NamesAndTypesList & alias_columns_,
const ColumnDefaults & column_defaults_,
size_t max_compress_block_size_);
/// Прочитать файлы с засечками, если они ещё не прочитаны.
/// Делается лениво, чтобы при большом количестве таблиц, сервер быстро стартовал.
/// Нельзя вызывать с залоченным на запись rwlock.
void loadMarks();
/// Можно вызывать при любом состоянии rwlock.
size_t marksCount();
BlockInputStreams read(
size_t from_mark,
size_t to_mark,
const Names & column_names,
ASTPtr query,
const Settings & settings,
QueryProcessingStage::Enum & processed_stage,
size_t max_block_size = DEFAULT_BLOCK_SIZE,
unsigned threads = 1);
private:
Files_t files; /// name -> data
Names column_names; /// column_index -> name
Poco::File marks_file;
/// Порядок добавления файлов не должен меняться: он соответствует порядку столбцов в файле с засечками.
2012-08-29 20:07:24 +00:00
void addFile(const String & column_name, const IDataType & type, size_t level = 0);
2012-06-21 16:33:00 +00:00
bool loaded_marks;
2014-03-28 14:36:24 +00:00
size_t max_compress_block_size;
protected:
FileChecker<StorageLog> file_checker;
private:
/** Для обычных столбцов, в засечках указано количество строчек в блоке.
* Для столбцов-массивов и вложенных структур, есть более одной группы засечек, соответствующих разным файлам:
* - для внутренностей (файла name.bin) - указано суммарное количество элементов массивов в блоке,
* - для размеров массивов (файла name.size0.bin) - указано количество строчек (самих целых массивов) в блоке.
*
* Вернуть первую попавшуюся группу засечек, в которых указано количество строчек, а не внутренностей массивов.
*/
const Marks & getMarksWithRealRowCount() const;
2010-03-18 19:32:14 +00:00
};
}