mirror of
https://github.com/ClickHouse/ClickHouse.git
synced 2024-12-01 20:12:02 +00:00
8623cb232c
* CLICKHOUSE-4063: less manual html @ index.md * CLICKHOUSE-4063: recommend markdown="1" in README.md * CLICKHOUSE-4003: manually purge custom.css for now * CLICKHOUSE-4064: expand <details> before any print (including to pdf) * CLICKHOUSE-3927: rearrange interfaces/formats.md a bit * CLICKHOUSE-3306: add few http headers * Remove copy-paste introduced in #3392 * Hopefully better chinese fonts #3392 * get rid of tabs @ custom.css * Apply comments and patch from #3384 * Add jdbc.md to ToC and some translation, though it still looks badly incomplete * minor punctuation * Add some backlinks to official website from mirrors that just blindly take markdown sources * Do not make fonts extra light * find . -name '*.md' -type f | xargs -I{} perl -pi -e 's//g' {} * find . -name '*.md' -type f | xargs -I{} perl -pi -e 's/ sql/g' {} * Remove outdated stuff from roadmap.md * Not so light font on front page too * Refactor Chinese formats.md to match recent changes in other languages
60 lines
5.5 KiB
Markdown
60 lines
5.5 KiB
Markdown
# Функции хэширования
|
||
|
||
Функции хэширования могут использоваться для детерминированного псевдослучайного разбрасывания элементов.
|
||
|
||
## halfMD5
|
||
Вычисляет MD5 от строки. Затем берёт первые 8 байт от хэша и интерпретирует их как UInt64 в big endian.
|
||
Принимает аргумент типа String. Возвращает UInt64.
|
||
Функция работает достаточно медленно (5 миллионов коротких строк в секунду на одном процессорном ядре).
|
||
Если вам не нужен конкретно MD5, то используйте вместо этого функцию sipHash64.
|
||
|
||
## MD5
|
||
|
||
Вычисляет MD5 от строки и возвращает полученный набор байт в виде FixedString(16).
|
||
Если вам не нужен конкретно MD5, а нужен неплохой криптографический 128-битный хэш, то используйте вместо этого функцию sipHash128.
|
||
Если вы хотите получить такой же результат, как выдаёт утилита md5sum, напишите lower(hex(MD5(s))).
|
||
|
||
## sipHash64
|
||
Вычисляет SipHash от строки.
|
||
Принимает аргумент типа String. Возвращает UInt64.
|
||
SipHash - криптографическая хэш-функция. Работает быстрее чем MD5 не менее чем в 3 раза.
|
||
Подробнее смотрите по ссылке: <https://131002.net/siphash/>
|
||
|
||
## sipHash128
|
||
Вычисляет SipHash от строки.
|
||
Принимает аргумент типа String. Возвращает FixedString(16).
|
||
Отличается от sipHash64 тем, что финальный xor-folding состояния делается только до 128 бит.
|
||
|
||
## cityHash64
|
||
Вычисляет CityHash64 от строки или похожую хэш-функцию для произвольного количества аргументов произвольного типа.
|
||
Если аргумент имеет тип String, то используется CityHash. Это быстрая некриптографическая хэш-функция неплохого качества для строк.
|
||
Если аргумент имеет другой тип, то используется implementation specific быстрая некриптографическая хэш-функция неплохого качества.
|
||
Если передано несколько аргументов, то функция вычисляется по тем же правилам, с помощью комбинации по цепочке с использованием комбинатора из CityHash.
|
||
Например, так вы можете вычислить чексумму всей таблицы с точностью до порядка строк: `SELECT sum(cityHash64(*)) FROM table`.
|
||
|
||
## intHash32
|
||
Вычисляет 32-битный хэш-код от целого числа любого типа.
|
||
Это сравнительно быстрая некриптографическая хэш-функция среднего качества для чисел.
|
||
|
||
## intHash64
|
||
Вычисляет 64-битный хэш-код от целого числа любого типа.
|
||
Работает быстрее, чем intHash32. Качество среднее.
|
||
|
||
## SHA1
|
||
|
||
## SHA224
|
||
|
||
## SHA256
|
||
Вычисляет SHA-1, SHA-224, SHA-256 от строки и возвращает полученный набор байт в виде FixedString(20), FixedString(28), FixedString(32).
|
||
Функция работает достаточно медленно (SHA-1 - примерно 5 миллионов коротких строк в секунду на одном процессорном ядре, SHA-224 и SHA-256 - примерно 2.2 миллионов).
|
||
Рекомендуется использовать эти функции лишь в тех случаях, когда вам нужна конкретная хэш-функция и вы не можете её выбрать.
|
||
Даже в этих случаях, рекомендуется применять функцию оффлайн - заранее вычисляя значения при вставке в таблицу, вместо того, чтобы применять её при SELECT-ах.
|
||
|
||
## URLHash(url\[, N\])
|
||
Быстрая некриптографическая хэш-функция неплохого качества для строки, полученной из URL путём некоторой нормализации.
|
||
`URLHash(s)` - вычислить хэш от строки без одного завершающего символа `/`, `?` или `#` на конце, если такой там есть.
|
||
`URLHash(s, N)` - вычислить хэш от строки до N-го уровня в иерархии URL, без одного завершающего символа `/`, `?` или `#` на конце, если такой там есть.
|
||
Уровни аналогичные URLHierarchy. Функция специфична для Яндекс.Метрики.
|
||
|
||
[Оригинальная статья](https://clickhouse.yandex/docs/ru/query_language/functions/hash_functions/) <!--hide-->
|