ClickHouse/docs/ja/getting-started/example-datasets/amplab-benchmark.md

---
toc_priority: 17
toc_title: "AMPLab Big Data ベンチマーク"
---

# AMPLab Big Data ベンチマーク {#amplab-big-data-benchmark}

https://amplab.cs.berkeley.edu/benchmark/ を参照して下さい。

https://aws.amazon.com で無料アカウントにサインアップしてください。クレジットカード、電子メール、電話番号が必要です。
https://console.aws.amazon.com/iam/home?nc2=h_m_sc#security_credential で新しいアクセスキーを取得します。


コンソールで以下を実行します:

``` bash
$ sudo apt-get install s3cmd
$ mkdir tiny; cd tiny;
$ s3cmd sync s3://big-data-benchmark/pavlo/text-deflate/tiny/ .
$ cd ..
$ mkdir 1node; cd 1node;
$ s3cmd sync s3://big-data-benchmark/pavlo/text-deflate/1node/ .
$ cd ..
$ mkdir 5nodes; cd 5nodes;
$ s3cmd sync s3://big-data-benchmark/pavlo/text-deflate/5nodes/ .
$ cd ..
```

次のClickHouseクエリを実行します:

``` sql
CREATE TABLE rankings_tiny
(
    pageURL String,
    pageRank UInt32,
    avgDuration UInt32
) ENGINE = Log;

CREATE TABLE uservisits_tiny
(
    sourceIP String,
    destinationURL String,
    visitDate Date,
    adRevenue Float32,
    UserAgent String,
    cCode FixedString(3),
    lCode FixedString(6),
    searchWord String,
    duration UInt32
) ENGINE = MergeTree(visitDate, visitDate, 8192);

CREATE TABLE rankings_1node
(
    pageURL String,
    pageRank UInt32,
    avgDuration UInt32
) ENGINE = Log;

CREATE TABLE uservisits_1node
(
    sourceIP String,
    destinationURL String,
    visitDate Date,
    adRevenue Float32,
    UserAgent String,
    cCode FixedString(3),
    lCode FixedString(6),
    searchWord String,
    duration UInt32
) ENGINE = MergeTree(visitDate, visitDate, 8192);

CREATE TABLE rankings_5nodes_on_single
(
    pageURL String,
    pageRank UInt32,
    avgDuration UInt32
) ENGINE = Log;

CREATE TABLE uservisits_5nodes_on_single
(
    sourceIP String,
    destinationURL String,
    visitDate Date,
    adRevenue Float32,
    UserAgent String,
    cCode FixedString(3),
    lCode FixedString(6),
    searchWord String,
    duration UInt32
) ENGINE = MergeTree(visitDate, visitDate, 8192);
```

コンソールに戻って以下を実行します:

``` bash
$ for i in tiny/rankings/*.deflate; do echo $i; zlib-flate -uncompress < $i | clickhouse-client --host=example-perftest01j --query="INSERT INTO rankings_tiny FORMAT CSV"; done
$ for i in tiny/uservisits/*.deflate; do echo $i; zlib-flate -uncompress < $i | clickhouse-client --host=example-perftest01j --query="INSERT INTO uservisits_tiny FORMAT CSV"; done
$ for i in 1node/rankings/*.deflate; do echo $i; zlib-flate -uncompress < $i | clickhouse-client --host=example-perftest01j --query="INSERT INTO rankings_1node FORMAT CSV"; done
$ for i in 1node/uservisits/*.deflate; do echo $i; zlib-flate -uncompress < $i | clickhouse-client --host=example-perftest01j --query="INSERT INTO uservisits_1node FORMAT CSV"; done
$ for i in 5nodes/rankings/*.deflate; do echo $i; zlib-flate -uncompress < $i | clickhouse-client --host=example-perftest01j --query="INSERT INTO rankings_5nodes_on_single FORMAT CSV"; done
$ for i in 5nodes/uservisits/*.deflate; do echo $i; zlib-flate -uncompress < $i | clickhouse-client --host=example-perftest01j --query="INSERT INTO uservisits_5nodes_on_single FORMAT CSV"; done
```

データの取得サンプルクエリ:

``` sql
SELECT pageURL, pageRank FROM rankings_1node WHERE pageRank > 1000

SELECT substring(sourceIP, 1, 8), sum(adRevenue) FROM uservisits_1node GROUP BY substring(sourceIP, 1, 8)

SELECT
    sourceIP,
    sum(adRevenue) AS totalRevenue,
    avg(pageRank) AS pageRank
FROM rankings_1node ALL INNER JOIN
(
    SELECT
        sourceIP,
        destinationURL AS pageURL,
        adRevenue
    FROM uservisits_1node
    WHERE (visitDate > '1980-01-01') AND (visitDate < '1980-04-01')
) USING pageURL
GROUP BY sourceIP
ORDER BY totalRevenue DESC
LIMIT 1
```

[元の記事](https://clickhouse.tech/docs/en/getting_started/example_datasets/amplab_benchmark/) <!--hide-->
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00			`---`
			`toc_priority: 17`
Documentation of getting-started in Japanese (#13966) * Remove machine_translated * Add 'For non-Linux operating systems and for AArch64 CPU' section * Translate getting-started/install.md to ja * Fix index.md anchors * Translate index.md via GitLocalize * Translate index.md via GitLocalize * Translate getting-started/playground.md to ja * Translate getting-started/index.md to ja * Translate experiment to 試す in ja * Translate getting-started/tutoial.md to ja * Translate getting-started/tutoial.md to ja * Translate getting-started/example-datasets to ja * Fix original article path * Fix getting-started/index.md * Revert ja/index.md * Fix Input/Output to 入出力 * Fix Original argicle en * Fix missing links md files. `getting-started/sql-reference/statements/optimize.md` is not placed in ja directory. Currentry, it refer to english one. * Change link to optimize.md copied from en * Change link to alter.md ja 2020-08-27 14:46:11 +00:00			`toc_title: "AMPLab Big Data ベンチマーク"`
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00			`---`

Documentation of getting-started in Japanese (#13966) * Remove machine_translated * Add 'For non-Linux operating systems and for AArch64 CPU' section * Translate getting-started/install.md to ja * Fix index.md anchors * Translate index.md via GitLocalize * Translate index.md via GitLocalize * Translate getting-started/playground.md to ja * Translate getting-started/index.md to ja * Translate experiment to 試す in ja * Translate getting-started/tutoial.md to ja * Translate getting-started/tutoial.md to ja * Translate getting-started/example-datasets to ja * Fix original article path * Fix getting-started/index.md * Revert ja/index.md * Fix Input/Output to 入出力 * Fix Original argicle en * Fix missing links md files. `getting-started/sql-reference/statements/optimize.md` is not placed in ja directory. Currentry, it refer to english one. * Change link to optimize.md copied from en * Change link to alter.md ja 2020-08-27 14:46:11 +00:00			`# AMPLab Big Data ベンチマーク {#amplab-big-data-benchmark}`
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00
Documentation of getting-started in Japanese (#13966) * Remove machine_translated * Add 'For non-Linux operating systems and for AArch64 CPU' section * Translate getting-started/install.md to ja * Fix index.md anchors * Translate index.md via GitLocalize * Translate index.md via GitLocalize * Translate getting-started/playground.md to ja * Translate getting-started/index.md to ja * Translate experiment to 試す in ja * Translate getting-started/tutoial.md to ja * Translate getting-started/tutoial.md to ja * Translate getting-started/example-datasets to ja * Fix original article path * Fix getting-started/index.md * Revert ja/index.md * Fix Input/Output to 入出力 * Fix Original argicle en * Fix missing links md files. `getting-started/sql-reference/statements/optimize.md` is not placed in ja directory. Currentry, it refer to english one. * Change link to optimize.md copied from en * Change link to alter.md ja 2020-08-27 14:46:11 +00:00			`https://amplab.cs.berkeley.edu/benchmark/ を参照して下さい。`

			`https://aws.amazon.com で無料アカウントにサインアップしてください。クレジットカード、電子メール、電話番号が必要です。`
Fix broken links in docs 2020-10-13 17:23:29 +00:00			`https://console.aws.amazon.com/iam/home?nc2=h_m_sc#security_credential で新しいアクセスキーを取得します。`
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00

			`コンソールで以下を実行します:`

			``` bash
			`$ sudo apt-get install s3cmd`
			`$ mkdir tiny; cd tiny;`
			`$ s3cmd sync s3://big-data-benchmark/pavlo/text-deflate/tiny/ .`
			`$ cd ..`
			`$ mkdir 1node; cd 1node;`
			`$ s3cmd sync s3://big-data-benchmark/pavlo/text-deflate/1node/ .`
			`$ cd ..`
			`$ mkdir 5nodes; cd 5nodes;`
			`$ s3cmd sync s3://big-data-benchmark/pavlo/text-deflate/5nodes/ .`
			`$ cd ..`
			```

SQL reference refactoring (#10857) * split up select.md * array-join.md basic refactoring * distinct.md basic refactoring * format.md basic refactoring * from.md basic refactoring * group-by.md basic refactoring * having.md basic refactoring * additional index.md refactoring * into-outfile.md basic refactoring * join.md basic refactoring * limit.md basic refactoring * limit-by.md basic refactoring * order-by.md basic refactoring * prewhere.md basic refactoring * adjust operators/index.md links * adjust sample.md links * adjust more links * adjust operatots links * fix some links * adjust aggregate function article titles * basic refactor of remaining select clauses * absolute paths in make_links.sh * run make_links.sh * remove old select.md locations * translate docs/es * translate docs/fr * translate docs/fa * remove old operators.md location * change operators.md links * adjust links in docs/es * adjust links in docs/es * minor texts adjustments * wip * update machine translations to use new links * fix changelog * es build fixes * get rid of some select.md links * temporary adjust ru links * temporary adjust more ru links * improve curly brace handling * adjust ru as well * fa build fix * ru link fixes * zh link fixes * temporary disable part of anchor checks 2020-05-15 04:34:54 +00:00			`次のClickHouseクエリを実行します:`
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00
			``` sql
			`CREATE TABLE rankings_tiny`
			`(`
			`pageURL String,`
			`pageRank UInt32,`
			`avgDuration UInt32`
			`) ENGINE = Log;`

			`CREATE TABLE uservisits_tiny`
			`(`
			`sourceIP String,`
			`destinationURL String,`
			`visitDate Date,`
			`adRevenue Float32,`
			`UserAgent String,`
			`cCode FixedString(3),`
			`lCode FixedString(6),`
			`searchWord String,`
			`duration UInt32`
			`) ENGINE = MergeTree(visitDate, visitDate, 8192);`

			`CREATE TABLE rankings_1node`
			`(`
			`pageURL String,`
			`pageRank UInt32,`
			`avgDuration UInt32`
			`) ENGINE = Log;`

			`CREATE TABLE uservisits_1node`
			`(`
			`sourceIP String,`
			`destinationURL String,`
			`visitDate Date,`
			`adRevenue Float32,`
			`UserAgent String,`
			`cCode FixedString(3),`
			`lCode FixedString(6),`
			`searchWord String,`
			`duration UInt32`
			`) ENGINE = MergeTree(visitDate, visitDate, 8192);`

			`CREATE TABLE rankings_5nodes_on_single`
			`(`
			`pageURL String,`
			`pageRank UInt32,`
			`avgDuration UInt32`
			`) ENGINE = Log;`

			`CREATE TABLE uservisits_5nodes_on_single`
			`(`
			`sourceIP String,`
			`destinationURL String,`
			`visitDate Date,`
			`adRevenue Float32,`
			`UserAgent String,`
			`cCode FixedString(3),`
			`lCode FixedString(6),`
			`searchWord String,`
			`duration UInt32`
			`) ENGINE = MergeTree(visitDate, visitDate, 8192);`
			```

Documentation of getting-started in Japanese (#13966) * Remove machine_translated * Add 'For non-Linux operating systems and for AArch64 CPU' section * Translate getting-started/install.md to ja * Fix index.md anchors * Translate index.md via GitLocalize * Translate index.md via GitLocalize * Translate getting-started/playground.md to ja * Translate getting-started/index.md to ja * Translate experiment to 試す in ja * Translate getting-started/tutoial.md to ja * Translate getting-started/tutoial.md to ja * Translate getting-started/example-datasets to ja * Fix original article path * Fix getting-started/index.md * Revert ja/index.md * Fix Input/Output to 入出力 * Fix Original argicle en * Fix missing links md files. `getting-started/sql-reference/statements/optimize.md` is not placed in ja directory. Currentry, it refer to english one. * Change link to optimize.md copied from en * Change link to alter.md ja 2020-08-27 14:46:11 +00:00			`コンソールに戻って以下を実行します:`
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00
			``` bash
			`$ for i in tiny/rankings/*.deflate; do echo $i; zlib-flate -uncompress < $i \| clickhouse-client --host=example-perftest01j --query="INSERT INTO rankings_tiny FORMAT CSV"; done`
			`$ for i in tiny/uservisits/*.deflate; do echo $i; zlib-flate -uncompress < $i \| clickhouse-client --host=example-perftest01j --query="INSERT INTO uservisits_tiny FORMAT CSV"; done`
			`$ for i in 1node/rankings/*.deflate; do echo $i; zlib-flate -uncompress < $i \| clickhouse-client --host=example-perftest01j --query="INSERT INTO rankings_1node FORMAT CSV"; done`
			`$ for i in 1node/uservisits/*.deflate; do echo $i; zlib-flate -uncompress < $i \| clickhouse-client --host=example-perftest01j --query="INSERT INTO uservisits_1node FORMAT CSV"; done`
			`$ for i in 5nodes/rankings/*.deflate; do echo $i; zlib-flate -uncompress < $i \| clickhouse-client --host=example-perftest01j --query="INSERT INTO rankings_5nodes_on_single FORMAT CSV"; done`
			`$ for i in 5nodes/uservisits/*.deflate; do echo $i; zlib-flate -uncompress < $i \| clickhouse-client --host=example-perftest01j --query="INSERT INTO uservisits_5nodes_on_single FORMAT CSV"; done`
			```

Documentation of getting-started in Japanese (#13966) * Remove machine_translated * Add 'For non-Linux operating systems and for AArch64 CPU' section * Translate getting-started/install.md to ja * Fix index.md anchors * Translate index.md via GitLocalize * Translate index.md via GitLocalize * Translate getting-started/playground.md to ja * Translate getting-started/index.md to ja * Translate experiment to 試す in ja * Translate getting-started/tutoial.md to ja * Translate getting-started/tutoial.md to ja * Translate getting-started/example-datasets to ja * Fix original article path * Fix getting-started/index.md * Revert ja/index.md * Fix Input/Output to 入出力 * Fix Original argicle en * Fix missing links md files. `getting-started/sql-reference/statements/optimize.md` is not placed in ja directory. Currentry, it refer to english one. * Change link to optimize.md copied from en * Change link to alter.md ja 2020-08-27 14:46:11 +00:00			`データの取得サンプルクエリ:`
Update some docs translations (#10044) 2020-04-04 09:15:31 +00:00
			``` sql
			`SELECT pageURL, pageRank FROM rankings_1node WHERE pageRank > 1000`

			`SELECT substring(sourceIP, 1, 8), sum(adRevenue) FROM uservisits_1node GROUP BY substring(sourceIP, 1, 8)`

			`SELECT`
			`sourceIP,`
			`sum(adRevenue) AS totalRevenue,`
			`avg(pageRank) AS pageRank`
			`FROM rankings_1node ALL INNER JOIN`
			`(`
			`SELECT`
			`sourceIP,`
			`destinationURL AS pageURL,`
			`adRevenue`
			`FROM uservisits_1node`
			`WHERE (visitDate > '1980-01-01') AND (visitDate < '1980-04-01')`
			`) USING pageURL`
			`GROUP BY sourceIP`
			`ORDER BY totalRevenue DESC`
			`LIMIT 1`
			```

			`[元の記事](https://clickhouse.tech/docs/en/getting_started/example_datasets/amplab_benchmark/) <!--hide-->`