add toc priority for documentation

This commit is contained in:
qianmoQ 2020-11-27 18:20:57 +08:00
parent 972f12abae
commit 72fdc76239
3 changed files with 36 additions and 22 deletions

View File

@ -1,8 +1,13 @@
# AMPLab大数据基准测试 {#amplab-da-shu-ju-ji-zhun-ce-shi}
---
toc_priority: 19
toc_title: AMPLab Big Data Benchmark
---
# AMPLab Big Data Benchmark {#amplab-big-data-benchmark}
参考 https://amplab.cs.berkeley.edu/benchmark/
需要您在https://aws.amazon.com注册一个免费的账号。注册时需要您提供信用卡、邮箱、电话等信息。之后可以在https://console.aws.amazon.com/iam/home?nc2=h_m_sc#security_credential获取新的访问密钥
需要您在[Amazon](https://aws.amazon.com)注册一个免费的账号。注册时需要您提供信用卡、邮箱、电话等信息。之后可以在[Amazon AWS Console](https://console.aws.amazon.com/iam/home?nc2=h_m_sc#security_credential)获取新的访问密钥
在控制台运行以下命令:

View File

@ -1,6 +1,11 @@
# Criteo TB级别点击日志 {#criteo-tbji-bie-dian-ji-ri-zhi}
---
toc_priority: 18
toc_title: Terabyte Click Logs from Criteo
---
可以从http://labs.criteo.com/downloads/download-terabyte-click-logs/上下载数据
# Terabyte of Click Logs from Criteo {#criteo-tbji-bie-dian-ji-ri-zhi}
可以从 http://labs.criteo.com/downloads/download-terabyte-click-logs/ 上下载数据
创建原始数据对应的表结构:

View File

@ -1,15 +1,20 @@
# 纽约市出租车数据 {#niu-yue-shi-chu-zu-che-shu-ju}
---
toc_priority: 20
toc_title: New York Taxi Data
---
# 纽约出租车数据 {#niu-yue-shi-chu-zu-che-shu-ju}
纽约市出租车数据有以下两个方式获取:
从原始数据导入
下载预处理好的分区数据
- 从原始数据导入
- 下载处理好的数据
## 怎样导入原始数据 {#zen-yang-dao-ru-yuan-shi-shu-ju}
可以参考https://github.com/toddwschneider/nyc-taxi-data和http://tech.marksblogg.com/billion-nyc-taxi-rides-redshift.html中的关于数据集结构描述与数据下载指令说明。
可以参考 https://github.com/toddwschneider/nyc-taxi-data http://tech.marksblogg.com/billion-nyc-taxi-rides-redshift.html 中的关于数据集结构描述与数据下载指令说明。
数据集包含227GB的CSV文件。这大约需要一个小时的下载时间(1Gbit带宽下并行下载大概是一半时间)。
数据集包含227GB的CSV文件。在1Gbig的带宽下下载大约需要一个小时这大约需要一个小时的下载时间(从s3.amazonaws.com并行下载时间至少可以缩减一半)。
下载时注意损坏的文件。可以检查文件大小并重新下载损坏的文件。
有些文件中包含一些无效的行,您可以使用如下语句修复他们:
@ -21,7 +26,7 @@ mv data/yellow_tripdata_2010-02.csv_ data/yellow_tripdata_2010-02.csv
mv data/yellow_tripdata_2010-03.csv_ data/yellow_tripdata_2010-03.csv
```
然后您必须在PostgreSQL中预处理这些数据。这将创建多边形中的点以匹配在地图中纽约市中范围然后通过使用JOIN查询将数据关联组合到一个规范的表中。为了完成这部分操作您需要安装PostgreSQL的同时安装PostGIS插件
然后必须在PostgreSQL中对数据进行预处理。这将创建多边形中选择的点(将地图上的点与纽约市的行政区相匹配)并使用连接将所有数据合并到一个非规范化的平面表中。为此您需要安装支持PostGIS的PostgreSQL
运行`initialize_database.sh`时要小心,并手动重新检查是否正确创建了所有表。
@ -114,7 +119,7 @@ COPY
) TO '/opt/milovidov/nyc-taxi-data/trips.tsv';
```
数据快照的创建速度约为每秒50 MB。 在创建快照时PostgreSQL以每秒约28 MB的速度从磁盘读取数据。
数据快照的创建速度约为每秒50MB。 在创建快照时PostgreSQL以每秒约28MB的速度从磁盘读取数据。
这大约需要5个小时。 最终生成的TSV文件为590612904969 bytes。
在ClickHouse中创建临时表
@ -186,11 +191,11 @@ real 75m56.214s
数据的读取速度为112-140 Mb/秒。
通过这种方式将数据加载到Log表中需要76分钟。
这个表中的数据需要使用142 GB的磁盘空间.
这个表中的数据需要使用142GB的磁盘空间.
(也可以直接使用`COPY ... TO PROGRAM`从Postgres中导入数据
由于数据中与天气相关的所有数据precipitation……average_wind_speed都填充了NULL。 所以,我们将从最终数据集中删除它们
数据中所有与天气相关的字段(precipitation……average_wind_speed)都填充了NULL。 所以,我们将从最终数据集中删除它们
首先,我们使用单台服务器创建表,后面我们将在多台节点上创建这些表。
@ -259,7 +264,7 @@ FROM trips
```
这需要3030秒速度约为每秒428,000行。
要加快速度,可以使用`Log`引擎替换MergeTree\`引擎来创建表。 在这种情况下下载速度超过200秒。
要加快速度,可以使用`Log`引擎替换`MergeTree`引擎来创建表。 在这种情况下下载速度超过200秒。
这个表需要使用126GB的磁盘空间。
@ -286,8 +291,7 @@ $ clickhouse-client --query "select count(*) from datasets.trips_mergetree"
```
!!! info "信息"
如果要运行下面的SQL查询必须使用完整的表名
`datasets.trips_mergetree`
如果要运行下面的SQL查询必须使用完整的表名`datasets.trips_mergetree`。
## 单台服务器运行结果 {#dan-tai-fu-wu-qi-yun-xing-jie-guo}
@ -328,9 +332,9 @@ ORDER BY year, count(*) DESC
我们使用的是如下配置的服务器:
两个英特尔R至强RCPU E5-2650v2@2.60GHz总共有16个物理内核128GiB RAM硬件RAID-5上的8X6TB HD
两个`Intel(R) Xeon(R) CPU E5-2650 v2 @ 2.60GHz`总共有16个物理内核128GiB RAM8X6TB HDRAID-5
执行时间是取三次运行中最好的值,但是从第二次查询开始,查询就从文件系统的缓存中读取数据。同时在每次读取和处理后不在进行缓存。
执行时间是取三次运行中最好的值,但是从第二次查询开始,查询就从文件系统的缓存中读取数据。同时在每次读取和处理后不在进行缓存。
在三台服务器中创建表结构:
@ -356,12 +360,12 @@ INSERT INTO trips_mergetree_x3 SELECT * FROM trips_mergetree
在三台服务器集群中运行的结果:
Q1:0.212秒.
Q1: 0.212秒.
Q20.438秒。
Q30.733秒。
Q4:1.241秒.
Q4: 1.241秒.
不出意料,查询是线性扩展的。
这并不奇怪,因为查询是线性扩展的。
我们同时在140台服务器的集群中运行的结果
@ -371,7 +375,7 @@ Q30.051秒。
Q40.072秒。
在这种情况下,查询处理时间首先由网络延迟确定。
我们使用位于芬兰的Yandex数据中心中的客户端去位于俄罗斯的集群上运行查询这增加了大约20毫秒的延迟。
我们使用位于芬兰Yandex数据中心的客户机在俄罗斯的一个集群上运行查询这增加了大约20毫秒的延迟。
## 总结 {#zong-jie}