ClickHouse/src/Parsers/TokenIterator.h

#pragma once

#include <Core/Defines.h>
#include <Parsers/Lexer.h>

#include <vector>


namespace DB
{

/** Parser operates on lazy stream of tokens.
  * It could do lookaheads of any depth.
  */

/** Used as an input for parsers.
  * All whitespace and comment tokens are transparently skipped.
  */
class Tokens
{
private:
    std::vector<Token> data;
    Lexer lexer;

public:
    Tokens(const char * begin, const char * end, size_t max_query_size = 0) : lexer(begin, end, max_query_size) {}

    const Token & operator[] (size_t index)
    {
        while (true)
        {
            if (index < data.size())
                return data[index];

            if (!data.empty() && data.back().isEnd())
                return data.back();

            Token token = lexer.nextToken();

            if (token.isSignificant())
                data.emplace_back(token);
        }
    }

    const Token & max()
    {
        if (data.empty())
            return (*this)[0];
        return data.back();
    }
};


/// To represent position in a token stream.
class TokenIterator
{
private:
    Tokens * tokens;
    size_t index = 0;

public:
    explicit TokenIterator(Tokens & tokens_) : tokens(&tokens_) {}

    ALWAYS_INLINE const Token & get() { return (*tokens)[index]; }
    ALWAYS_INLINE const Token & operator*() { return get(); }
    ALWAYS_INLINE const Token * operator->() { return &get(); }

    ALWAYS_INLINE TokenIterator & operator++()
    {
        ++index;
        return *this;
    }
    ALWAYS_INLINE TokenIterator & operator--()
    {
        --index;
        return *this;
    }

    ALWAYS_INLINE bool operator<(const TokenIterator & rhs) const { return index < rhs.index; }
    ALWAYS_INLINE bool operator<=(const TokenIterator & rhs) const { return index <= rhs.index; }
    ALWAYS_INLINE bool operator==(const TokenIterator & rhs) const { return index == rhs.index; }
    ALWAYS_INLINE bool operator!=(const TokenIterator & rhs) const { return index != rhs.index; }

    ALWAYS_INLINE bool isValid() { return get().type < TokenType::EndOfStream; }

    /// Rightmost token we had looked.
    ALWAYS_INLINE const Token & max() { return tokens->max(); }
};


/// Returns positions of unmatched parentheses.
using UnmatchedParentheses = std::vector<Token>;
UnmatchedParentheses checkUnmatchedParentheses(TokenIterator begin);

}
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`#pragma once`

Inline TokenIterator 2021-11-29 09:47:21 +00:00			`#include <Core/Defines.h>`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`#include <Parsers/Lexer.h>`

Inline TokenIterator 2021-11-29 09:47:21 +00:00			`#include <vector>`

Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00
			`namespace DB`
			`{`

			`/** Parser operates on lazy stream of tokens.`
			`* It could do lookaheads of any depth.`
			`*/`

Using lexer (development) [#CLICKHOUSE-2]. 2017-07-12 19:20:57 +00:00			`/** Used as an input for parsers.`
			`* All whitespace and comment tokens are transparently skipped.`
			`*/`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`class Tokens`
			`{`
			`private:`
			`std::vector<Token> data;`
			`Lexer lexer;`

			`public:`
minor fixes 2018-03-26 19:41:55 +00:00			`Tokens(const char * begin, const char * end, size_t max_query_size = 0) : lexer(begin, end, max_query_size) {}`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00
			`const Token & operator[] (size_t index)`
			`{`
			`while (true)`
			`{`
			`if (index < data.size())`
			`return data[index];`

Using lexer (development) [#CLICKHOUSE-2]. 2017-07-13 01:12:13 +00:00			`if (!data.empty() && data.back().isEnd())`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`return data.back();`

			`Token token = lexer.nextToken();`

Using lexer (development) [#CLICKHOUSE-2]. 2017-07-13 01:12:13 +00:00			`if (token.isSignificant())`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`data.emplace_back(token);`
			`}`
			`}`
Using lexer (development) [#CLICKHOUSE-2]. 2017-07-12 20:45:27 +00:00
			`const Token & max()`
			`{`
			`if (data.empty())`
			`return (*this)[0];`
			`return data.back();`
			`}`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`};`


			`/// To represent position in a token stream.`
			`class TokenIterator`
			`{`
			`private:`
			`Tokens * tokens;`
			`size_t index = 0;`

			`public:`
adding -Wshadow for GCC 2019-08-03 11:02:40 +00:00			`explicit TokenIterator(Tokens & tokens_) : tokens(&tokens_) {}`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00
Inline TokenIterator 2021-11-29 09:47:21 +00:00			`ALWAYS_INLINE const Token & get() { return (*tokens)[index]; }`
			`ALWAYS_INLINE const Token & operator*() { return get(); }`
			`ALWAYS_INLINE const Token * operator->() { return &get(); }`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00
Inline TokenIterator 2021-11-29 09:47:21 +00:00			`ALWAYS_INLINE TokenIterator & operator++()`
			`{`
			`++index;`
			`return *this;`
			`}`
			`ALWAYS_INLINE TokenIterator & operator--()`
			`{`
			`--index;`
			`return *this;`
			`}`
Using lexer (development) [#CLICKHOUSE-2]. 2017-07-12 19:20:57 +00:00
Inline TokenIterator 2021-11-29 09:47:21 +00:00			`ALWAYS_INLINE bool operator<(const TokenIterator & rhs) const { return index < rhs.index; }`
			`ALWAYS_INLINE bool operator<=(const TokenIterator & rhs) const { return index <= rhs.index; }`
			`ALWAYS_INLINE bool operator==(const TokenIterator & rhs) const { return index == rhs.index; }`
			`ALWAYS_INLINE bool operator!=(const TokenIterator & rhs) const { return index != rhs.index; }`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00
Inline TokenIterator 2021-11-29 09:47:21 +00:00			`ALWAYS_INLINE bool isValid() { return get().type < TokenType::EndOfStream; }`
Using lexer (development) [#CLICKHOUSE-2]. 2017-07-12 20:45:27 +00:00
Using lexer (development) [#CLICKHOUSE-2]. 2017-07-13 01:12:13 +00:00			`/// Rightmost token we had looked.`
Inline TokenIterator 2021-11-29 09:47:21 +00:00			`ALWAYS_INLINE const Token & max() { return tokens->max(); }`
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`};`

Using lexer: better error messages [#CLICKHOUSE-2]. 2017-07-13 04:20:56 +00:00
			`/// Returns positions of unmatched parentheses.`
Using lexer: better error messages [#CLICKHOUSE-2]. 2017-07-13 05:38:02 +00:00			`using UnmatchedParentheses = std::vector<Token>;`
fix 'Unmatched parentheses', add test 2021-01-31 23:10:41 +00:00			`UnmatchedParentheses checkUnmatchedParentheses(TokenIterator begin);`
Using lexer: better error messages [#CLICKHOUSE-2]. 2017-07-13 04:20:56 +00:00
Using lexer (incomplete) [#CLICKHOUSE-2]. 2017-07-12 04:17:05 +00:00			`}`