ClickHouse/tests/integration/test_parallel_replicas_over_distributed/test.py

import pytest
from helpers.cluster import ClickHouseCluster

cluster = ClickHouseCluster(__file__)

nodes = [
    cluster.add_instance(
        f"n{i}", main_configs=["configs/remote_servers.xml"], with_zookeeper=True
    )
    for i in (1, 2, 3, 4)
]


@pytest.fixture(scope="module", autouse=True)
def start_cluster():
    try:
        cluster.start()
        yield cluster
    finally:
        cluster.shutdown()


def create_tables(cluster, table_name):
    # create replicated tables
    for node in nodes:
        node.query(f"DROP TABLE IF EXISTS {table_name} SYNC")

    if cluster == "test_single_shard_multiple_replicas":
        nodes[0].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r1') ORDER BY (key)"
        )
        nodes[1].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r2') ORDER BY (key)"
        )
        nodes[2].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r3') ORDER BY (key)"
        )
        nodes[3].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r4') ORDER BY (key)"
        )
    elif cluster == "test_multiple_shards_multiple_replicas":
        # shard 1
        nodes[0].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r1') ORDER BY (key)"
        )
        nodes[1].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r2') ORDER BY (key)"
        )
        # shard 2
        nodes[2].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard2/{table_name}', 'r1') ORDER BY (key)"
        )
        nodes[3].query(
            f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard2/{table_name}', 'r2') ORDER BY (key)"
        )
    else:
        raise Exception(f"Unexpected cluster: {cluster}")

    # create distributed table
    nodes[0].query(f"DROP TABLE IF EXISTS {table_name}_d SYNC")
    nodes[0].query(
        f"""
            CREATE TABLE {table_name}_d AS {table_name}
            Engine=Distributed(
                {cluster},
                currentDatabase(),
                {table_name},
                key
            )
            """
    )

    # populate data
    nodes[0].query(
        f"INSERT INTO {table_name}_d SELECT number, number FROM numbers(1000)",
        settings={"insert_distributed_sync": 1},
    )
    nodes[0].query(
        f"INSERT INTO {table_name}_d SELECT number, number FROM numbers(2000)",
        settings={"insert_distributed_sync": 1},
    )
    nodes[0].query(
        f"INSERT INTO {table_name}_d SELECT -number, -number FROM numbers(1000)",
        settings={"insert_distributed_sync": 1},
    )
    nodes[0].query(
        f"INSERT INTO {table_name}_d SELECT -number, -number FROM numbers(2000)",
        settings={"insert_distributed_sync": 1},
    )
    nodes[0].query(
        f"INSERT INTO {table_name}_d SELECT number, number FROM numbers(1)",
        settings={"insert_distributed_sync": 1},
    )


@pytest.mark.parametrize(
    "cluster",
    ["test_single_shard_multiple_replicas", "test_multiple_shards_multiple_replicas"],
)
def test_parallel_replicas_over_distributed(start_cluster, cluster):
    table_name = "test_table"
    create_tables(cluster, table_name)

    node = nodes[0]
    expected_result = f"6001\t-1999\t1999\t0\n"

    # w/o parallel replicas
    assert (
        node.query(f"SELECT count(), min(key), max(key), sum(key) FROM {table_name}_d")
        == expected_result
    )

    # parallel replicas
    assert (
        node.query(
            f"SELECT count(), min(key), max(key), sum(key) FROM {table_name}_d",
            settings={
                "allow_experimental_parallel_reading_from_replicas": 2,
                "prefer_localhost_replica": 0,
                "max_parallel_replicas": 4,
                "use_hedged_requests": 0,
                # "cluster_for_parallel_replicas": cluster,
            },
        )
        == expected_result
    )
Integration test 2023-08-07 19:12:53 +00:00			`import pytest`
			`from helpers.cluster import ClickHouseCluster`

			`cluster = ClickHouseCluster(__file__)`

			`nodes = [`
Automatic style fix 2023-08-07 21:28:44 +00:00			`cluster.add_instance(`
			`f"n{i}", main_configs=["configs/remote_servers.xml"], with_zookeeper=True`
			`)`
Integration test 2023-08-07 19:12:53 +00:00			`for i in (1, 2, 3, 4)`
			`]`


			`@pytest.fixture(scope="module", autouse=True)`
			`def start_cluster():`
			`try:`
			`cluster.start()`
			`yield cluster`
			`finally:`
			`cluster.shutdown()`


Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`def create_tables(cluster, table_name):`
			`# create replicated tables`
Integration test 2023-08-07 19:12:53 +00:00			`for node in nodes:`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`node.query(f"DROP TABLE IF EXISTS {table_name} SYNC")`

			`if cluster == "test_single_shard_multiple_replicas":`
			`nodes[0].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r1') ORDER BY (key)"`
			`)`
			`nodes[1].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r2') ORDER BY (key)"`
			`)`
			`nodes[2].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r3') ORDER BY (key)"`
			`)`
			`nodes[3].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r4') ORDER BY (key)"`
			`)`
			`elif cluster == "test_multiple_shards_multiple_replicas":`
			`# shard 1`
			`nodes[0].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r1') ORDER BY (key)"`
			`)`
			`nodes[1].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard1/{table_name}', 'r2') ORDER BY (key)"`
			`)`
			`# shard 2`
			`nodes[2].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard2/{table_name}', 'r1') ORDER BY (key)"`
			`)`
			`nodes[3].query(`
			`f"CREATE TABLE IF NOT EXISTS {table_name} (key Int64, value String) Engine=ReplicatedMergeTree('/test_parallel_replicas/shard2/{table_name}', 'r2') ORDER BY (key)"`
Integration test 2023-08-07 19:12:53 +00:00			`)`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`else:`
			`raise Exception(f"Unexpected cluster: {cluster}")`
Integration test 2023-08-07 19:12:53 +00:00
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`# create distributed table`
			`nodes[0].query(f"DROP TABLE IF EXISTS {table_name}_d SYNC")`
Integration test 2023-08-07 19:12:53 +00:00			`nodes[0].query(`
			`f"""`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`CREATE TABLE {table_name}_d AS {table_name}`
Integration test 2023-08-07 19:12:53 +00:00			`Engine=Distributed(`
			`{cluster},`
			`currentDatabase(),`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`{table_name},`
			`key`
Integration test 2023-08-07 19:12:53 +00:00			`)`
			`"""`
			`)`

Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`# populate data`
Automatic style fix 2023-08-07 21:28:44 +00:00			`nodes[0].query(`
			`f"INSERT INTO {table_name}_d SELECT number, number FROM numbers(1000)",`
			`settings={"insert_distributed_sync": 1},`
			`)`
			`nodes[0].query(`
			`f"INSERT INTO {table_name}_d SELECT number, number FROM numbers(2000)",`
			`settings={"insert_distributed_sync": 1},`
			`)`
			`nodes[0].query(`
			`f"INSERT INTO {table_name}_d SELECT -number, -number FROM numbers(1000)",`
			`settings={"insert_distributed_sync": 1},`
			`)`
			`nodes[0].query(`
			`f"INSERT INTO {table_name}_d SELECT -number, -number FROM numbers(2000)",`
			`settings={"insert_distributed_sync": 1},`
			`)`
			`nodes[0].query(`
			`f"INSERT INTO {table_name}_d SELECT number, number FROM numbers(1)",`
			`settings={"insert_distributed_sync": 1},`
			`)`
Integration test 2023-08-07 19:12:53 +00:00

			`@pytest.mark.parametrize(`
			`"cluster",`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`["test_single_shard_multiple_replicas", "test_multiple_shards_multiple_replicas"],`
Integration test 2023-08-07 19:12:53 +00:00			`)`
Update test name 2023-08-07 21:13:08 +00:00			`def test_parallel_replicas_over_distributed(start_cluster, cluster):`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`table_name = "test_table"`
			`create_tables(cluster, table_name)`
Integration test 2023-08-07 19:12:53 +00:00
			`node = nodes[0]`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`expected_result = f"6001\t-1999\t1999\t0\n"`

			`# w/o parallel replicas`
Update test 2023-08-14 23:06:48 +00:00			`assert (`
			`node.query(f"SELECT count(), min(key), max(key), sum(key) FROM {table_name}_d")`
			`== expected_result`
			`)`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00
			`# parallel replicas`
Integration test 2023-08-07 19:12:53 +00:00			`assert (`
			`node.query(`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`f"SELECT count(), min(key), max(key), sum(key) FROM {table_name}_d",`
Integration test 2023-08-07 19:12:53 +00:00			`settings={`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`"allow_experimental_parallel_reading_from_replicas": 2,`
Integration test 2023-08-07 19:12:53 +00:00			`"prefer_localhost_replica": 0,`
			`"max_parallel_replicas": 4,`
Update test: use ReplicatedMergeTree 2023-08-07 21:06:12 +00:00			`"use_hedged_requests": 0,`
Propagate setting cluster_for_parallel_replicas to shards 2023-08-14 22:50:46 +00:00			`# "cluster_for_parallel_replicas": cluster,`
Integration test 2023-08-07 19:12:53 +00:00			`},`
			`)`
			`== expected_result`
			`)`