ClickHouse/tests/integration/test_log_family_hdfs/test.py

import logging
import sys

import pytest
from helpers.cluster import ClickHouseCluster, is_arm

from pyhdfs import HdfsClient

if is_arm():
    pytestmark = pytest.mark.skip


@pytest.fixture(scope="module")
def started_cluster():
    try:
        cluster = ClickHouseCluster(__file__)
        cluster.add_instance(
            "node", main_configs=["configs/storage_conf.xml"], with_hdfs=True
        )
        logging.info("Starting cluster...")
        cluster.start()
        logging.info("Cluster started")

        fs = HdfsClient(hosts=cluster.hdfs_ip)
        fs.mkdirs("/clickhouse")

        yield cluster
    finally:
        cluster.shutdown()


def assert_objects_count(started_cluster, objects_count, path="data/"):
    fs = HdfsClient(hosts=started_cluster.hdfs_ip)
    hdfs_objects = fs.listdir("/clickhouse")
    assert objects_count == len(hdfs_objects)


# TinyLog: files: id.bin, sizes.json
# INSERT overwrites 1 file (`sizes.json`) and appends 1 file (`id.bin`), so
# files_overhead=1, files_overhead_per_insert=1
#
# Log: files: id.bin, __marks.mrk, sizes.json
# INSERT overwrites 1 file (`sizes.json`), and appends 2 files (`id.bin`, `__marks.mrk`), so
# files_overhead=1, files_overhead_per_insert=2
#
# StripeLog: files: data.bin, index.mrk, sizes.json
# INSERT overwrites 1 file (`sizes.json`), and appends 2 files (`index.mrk`, `data.bin`), so
# files_overhead=1, files_overhead_per_insert=2
@pytest.mark.parametrize(
    "log_engine,files_overhead,files_overhead_per_insert",
    [("TinyLog", 1, 1), ("Log", 1, 2), ("StripeLog", 1, 2)],
)
def test_log_family_hdfs(
    started_cluster, log_engine, files_overhead, files_overhead_per_insert
):
    node = started_cluster.instances["node"]

    node.query(
        "CREATE TABLE hdfs_test (id UInt64) ENGINE={} SETTINGS disk = 'hdfs'".format(
            log_engine
        )
    )

    node.query("INSERT INTO hdfs_test SELECT number FROM numbers(5)")
    assert node.query("SELECT * FROM hdfs_test") == "0\n1\n2\n3\n4\n"
    assert_objects_count(started_cluster, files_overhead_per_insert + files_overhead)

    node.query("INSERT INTO hdfs_test SELECT number + 5 FROM numbers(3)")
    assert (
        node.query("SELECT * FROM hdfs_test order by id") == "0\n1\n2\n3\n4\n5\n6\n7\n"
    )
    assert_objects_count(
        started_cluster, files_overhead_per_insert * 2 + files_overhead
    )

    node.query("INSERT INTO hdfs_test SELECT number + 8 FROM numbers(1)")
    assert (
        node.query("SELECT * FROM hdfs_test order by id")
        == "0\n1\n2\n3\n4\n5\n6\n7\n8\n"
    )
    assert_objects_count(
        started_cluster, files_overhead_per_insert * 3 + files_overhead
    )

    node.query("TRUNCATE TABLE hdfs_test")
    assert_objects_count(started_cluster, 0)

    node.query("DROP TABLE hdfs_test")
Some clean up, more tests 2021-05-23 19:57:50 +00:00			`import logging`
			`import sys`

			`import pytest`
disable more hdfs and kafka inttests #ci_set_arm 2024-03-20 15:48:53 +00:00			`from helpers.cluster import ClickHouseCluster, is_arm`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`from pyhdfs import HdfsClient`

disable more hdfs and kafka inttests #ci_set_arm 2024-03-20 15:48:53 +00:00			`if is_arm():`
			`pytestmark = pytest.mark.skip`

Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`@pytest.fixture(scope="module")`
more 2021-05-27 07:58:12 +00:00			`def started_cluster():`
Some clean up, more tests 2021-05-23 19:57:50 +00:00			`try:`
			`cluster = ClickHouseCluster(__file__)`
			`cluster.add_instance(`
Collect stderr.log and stdout.log in all integration tests by default. 2021-06-29 13:01:15 +00:00			`"node", main_configs=["configs/storage_conf.xml"], with_hdfs=True`
Some clean up, more tests 2021-05-23 19:57:50 +00:00			`)`
			`logging.info("Starting cluster...")`
			`cluster.start()`
			`logging.info("Cluster started")`

more 2021-05-27 07:58:12 +00:00			`fs = HdfsClient(hosts=cluster.hdfs_ip)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00			`fs.mkdirs("/clickhouse")`

			`yield cluster`
			`finally:`
			`cluster.shutdown()`


more 2021-05-27 07:58:12 +00:00			`def assert_objects_count(started_cluster, objects_count, path="data/"):`
fix 2021-05-27 15:20:50 +00:00			`fs = HdfsClient(hosts=started_cluster.hdfs_ip)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00			`hdfs_objects = fs.listdir("/clickhouse")`
			`assert objects_count == len(hdfs_objects)`

Apply black formatter to all *.py files in the repo 2022-03-22 16:39:58 +00:00
Fix tests test_log_family_s3, test_log_family_hdfs. 2021-10-09 12:14:23 +00:00			`# TinyLog: files: id.bin, sizes.json`
			# INSERT overwrites 1 file (`sizes.json`) and appends 1 file (`id.bin`), so
			`# files_overhead=1, files_overhead_per_insert=1`
			`#`
			`# Log: files: id.bin, __marks.mrk, sizes.json`
			# INSERT overwrites 1 file (`sizes.json`), and appends 2 files (`id.bin`, `__marks.mrk`), so
			`# files_overhead=1, files_overhead_per_insert=2`
			`#`
			`# StripeLog: files: data.bin, index.mrk, sizes.json`
			# INSERT overwrites 1 file (`sizes.json`), and appends 2 files (`index.mrk`, `data.bin`), so
			`# files_overhead=1, files_overhead_per_insert=2`
Some clean up, more tests 2021-05-23 19:57:50 +00:00			`@pytest.mark.parametrize(`
			`"log_engine,files_overhead,files_overhead_per_insert",`
Fix tests test_log_family_s3, test_log_family_hdfs. 2021-10-09 12:14:23 +00:00			`[("TinyLog", 1, 1), ("Log", 1, 2), ("StripeLog", 1, 2)],`
			`)`
more 2021-05-27 07:58:12 +00:00			`def test_log_family_hdfs(`
			`started_cluster, log_engine, files_overhead, files_overhead_per_insert`
			`):`
			`node = started_cluster.instances["node"]`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`node.query(`
			`"CREATE TABLE hdfs_test (id UInt64) ENGINE={} SETTINGS disk = 'hdfs'".format(`
			`log_engine`
			`)`
Apply black formatter to all *.py files in the repo 2022-03-22 16:39:58 +00:00			`)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`node.query("INSERT INTO hdfs_test SELECT number FROM numbers(5)")`
			`assert node.query("SELECT * FROM hdfs_test") == "0\n1\n2\n3\n4\n"`
more 2021-05-27 07:58:12 +00:00			`assert_objects_count(started_cluster, files_overhead_per_insert + files_overhead)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`node.query("INSERT INTO hdfs_test SELECT number + 5 FROM numbers(3)")`
			`assert (`
			`node.query("SELECT * FROM hdfs_test order by id") == "0\n1\n2\n3\n4\n5\n6\n7\n"`
more 2021-05-27 07:58:12 +00:00			`)`
			`assert_objects_count(`
			`started_cluster, files_overhead_per_insert * 2 + files_overhead`
Apply black formatter to all *.py files in the repo 2022-03-22 16:39:58 +00:00			`)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`node.query("INSERT INTO hdfs_test SELECT number + 8 FROM numbers(1)")`
			`assert (`
			`node.query("SELECT * FROM hdfs_test order by id")`
			`== "0\n1\n2\n3\n4\n5\n6\n7\n8\n"`
more 2021-05-27 07:58:12 +00:00			`)`
			`assert_objects_count(`
			`started_cluster, files_overhead_per_insert * 3 + files_overhead`
Apply black formatter to all *.py files in the repo 2022-03-22 16:39:58 +00:00			`)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`node.query("TRUNCATE TABLE hdfs_test")`
more 2021-05-27 07:58:12 +00:00			`assert_objects_count(started_cluster, 0)`
Some clean up, more tests 2021-05-23 19:57:50 +00:00
			`node.query("DROP TABLE hdfs_test")`