2020-03-20 18:20:59 +00:00
# Функции для работы с URL {#funktsii-dlia-raboty-s-url}
2017-03-12 17:58:51 +00:00
В с е функции работают не по RFC - то есть, максимально упрощены ради производительности.
2020-04-30 18:19:18 +00:00
## Функции, извлекающие часть URL-а {#funktsii-izvlekaiushchie-chast-url-a}
2017-10-25 05:27:09 +00:00
2017-03-12 17:58:51 +00:00
Если в URL-е нет ничего похожего, то возвращается пустая строка.
2020-03-20 18:20:59 +00:00
### protocol {#protocol}
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
Возвращает протокол. Примеры: http, ftp, mailto, magnet…
### domain {#domain}
2019-08-26 16:09:30 +00:00
Извлекает имя хоста из URL.
2020-03-20 18:20:59 +00:00
``` sql
2019-08-26 16:09:30 +00:00
domain(url)
```
**Параметры**
2020-04-30 18:19:18 +00:00
- `url` — URL. Тип — [String ](../../sql-reference/functions/url-functions.md ).
2019-08-26 16:09:30 +00:00
URL может быть указан с о схемой или без неё. Примеры:
2020-03-20 18:20:59 +00:00
``` text
2019-08-26 16:09:30 +00:00
svn+ssh://some.svn-hosting.com:80/repo/trunk
some.svn-hosting.com:80/repo/trunk
https://yandex.com/time/
```
Для указанных примеров функция `domain` возвращает следующие результаты:
2020-03-20 18:20:59 +00:00
``` text
2019-08-26 16:09:30 +00:00
some.svn-hosting.com
some.svn-hosting.com
yandex.com
```
**Возвращаемые значения**
2020-03-21 04:11:51 +00:00
- Имя хоста. Если ClickHouse может распарсить входную строку как URL.
- Пустая строка. Если ClickHouse не может распарсить входную строку как URL.
2019-08-26 16:09:30 +00:00
Тип — `String` .
**Пример**
2020-03-20 18:20:59 +00:00
``` sql
2019-08-26 16:09:30 +00:00
SELECT domain('svn+ssh://some.svn-hosting.com:80/repo/trunk')
```
2020-03-20 18:20:59 +00:00
``` text
2019-08-26 16:09:30 +00:00
┌─domain('svn+ssh://some.svn-hosting.com:80/repo/trunk')─┐
│ some.svn-hosting.com │
└────────────────────────────────────────────────────────┘
```
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### domainWithoutWWW {#domainwithoutwww}
2019-08-26 16:09:30 +00:00
2020-03-20 18:20:59 +00:00
Возвращает домен, удалив префикс ‘ www.’ , если он присутствовал.
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### topLevelDomain {#topleveldomain}
2019-08-26 16:09:30 +00:00
Извлекает домен верхнего уровня из URL.
2020-03-20 18:20:59 +00:00
``` sql
2019-08-26 16:09:30 +00:00
topLevelDomain(url)
```
**Параметры**
2020-04-30 18:19:18 +00:00
- `url` — URL. Тип — [String ](../../sql-reference/functions/url-functions.md ).
2019-08-26 16:09:30 +00:00
URL может быть указан с о схемой или без неё. Примеры:
2020-03-20 18:20:59 +00:00
``` text
2019-08-26 16:09:30 +00:00
svn+ssh://some.svn-hosting.com:80/repo/trunk
some.svn-hosting.com:80/repo/trunk
https://yandex.com/time/
```
**Возвращаемые значения**
2020-03-21 04:11:51 +00:00
- Имя домена. Если ClickHouse может распарсить входную строку как URL.
- Пустая строка. Если ClickHouse не может распарсить входную строку как URL.
2019-08-26 16:09:30 +00:00
Тип — `String` .
**Пример**
2020-03-20 18:20:59 +00:00
``` sql
2019-08-26 16:09:30 +00:00
SELECT topLevelDomain('svn+ssh://www.some.svn-hosting.com:80/repo/trunk')
```
2020-03-20 18:20:59 +00:00
``` text
2019-08-26 16:09:30 +00:00
┌─topLevelDomain('svn+ssh://www.some.svn-hosting.com:80/repo/trunk')─┐
│ com │
└────────────────────────────────────────────────────────────────────┘
```
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### firstSignificantSubdomain {#firstsignificantsubdomain}
Возвращает «первый существенный поддомен». Это понятие является нестандартным и специфично для Яндекс.Метрики. Первый существенный поддомен - это домен второго уровня, если он не равен одному из com, net, org, co, или домен третьего уровня, иначе. Например, firstSignificantSubdomain(‘ https://news.yandex.ru/’ ) = ‘ yandex’ , firstSignificantSubdomain(‘ https://news.yandex.com.tr/’ ) = ‘ yandex’ . Список «несущественных» доменов второго уровня и другие детали реализации могут изменяться в будущем.
### cutToFirstSignificantSubdomain {#cuttofirstsignificantsubdomain}
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
Возвращает часть домена, включающую поддомены верхнего уровня до «первого существенного поддомена» (см. выше).
2017-03-12 17:58:51 +00:00
2017-10-25 05:27:09 +00:00
Например, `cutToFirstSignificantSubdomain('https://news.yandex.com.tr/') = 'yandex.com.tr'` .
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### path {#path}
2017-10-25 05:27:09 +00:00
Возвращает путь. Пример: `/top/news.html` Путь не включает в себя query string.
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### pathFull {#pathfull}
2020-10-13 17:23:29 +00:00
Т о же самое, но включая query string и fragment. Пример: /top/news.html?page=2#comments
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### queryString {#querystring}
2020-10-13 17:23:29 +00:00
Возвращает query-string. Пример: page=1& lr=213. query-string не включает в себя начальный знак вопроса, а также # и всё, что после #.
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### fragment {#fragment}
2017-03-12 17:58:51 +00:00
Возвращает fragment identifier. fragment не включает в себя начальный символ решётки.
2020-03-20 18:20:59 +00:00
### queryStringAndFragment {#querystringandfragment}
2020-10-13 17:23:29 +00:00
Возвращает query string и fragment identifier. Пример: страница=1#29390.
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### extractURLParameter(URL, name) {#extracturlparameterurl-name}
2017-03-12 17:58:51 +00:00
Возвращает значение параметра name в URL, если такой есть; или пустую строку, иначе; если параметров с таким именем много - вернуть первый попавшийся. Функция работает при допущении, что имя параметра закодировано в URL в точности таким же образом, что и в переданном аргументе.
2020-03-20 18:20:59 +00:00
### extractURLParameters(URL) {#extracturlparametersurl}
2017-03-12 17:58:51 +00:00
Возвращает массив строк вида name=value, соответствующих параметрам URL. Значения никак не декодируются.
2020-03-20 18:20:59 +00:00
### extractURLParameterNames(URL) {#extracturlparameternamesurl}
2017-03-12 17:58:51 +00:00
Возвращает массив строк вида name, соответствующих именам параметров URL. Значения никак не декодируются.
2020-03-20 18:20:59 +00:00
### URLHierarchy(URL) {#urlhierarchyurl}
2017-03-12 17:58:51 +00:00
Возвращает массив, содержащий URL, обрезанный с конца по символам /, ? в пути и query-string. Подряд идущие символы-разделители считаются за один. Резка производится в позиции после всех подряд идущих символов-разделителей. Пример:
2020-03-20 18:20:59 +00:00
### URLPathHierarchy(URL) {#urlpathhierarchyurl}
2017-03-12 17:58:51 +00:00
Т о же самое, но без протокола и хоста в результате. Элемент / (корень) не включается. Пример:
Функция используется для реализации древовидных отчётов по URL в Яндекс.Метрике.
2017-06-13 20:35:07 +00:00
2020-03-20 18:20:59 +00:00
``` text
2017-10-25 05:27:09 +00:00
URLPathHierarchy('https://example.com/browse/CONV-6788') =
[
'/browse/',
'/browse/CONV-6788'
]
```
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
### decodeURLComponent(URL) {#decodeurlcomponenturl}
2017-03-12 17:58:51 +00:00
Возвращает декодированный URL.
Пример:
2020-03-20 18:20:59 +00:00
``` sql
2017-10-25 05:27:09 +00:00
SELECT decodeURLComponent('http://127.0.0.1:8123/?query=SELECT%201%3B') AS DecodedURL;
```
2017-03-12 17:58:51 +00:00
2020-03-20 18:20:59 +00:00
``` text
2017-10-25 05:27:09 +00:00
┌─DecodedURL─────────────────────────────┐
│ http://127.0.0.1:8123/?query=SELECT 1; │
└────────────────────────────────────────┘
```
2017-06-13 04:15:47 +00:00
2020-07-09 08:50:53 +00:00
### netloc {#netloc}
Извлекает сетевую локальность (`username:password@host:port`) из URL.
**Синтаксис**
```sql
netloc(URL)
```
**Параметры**
- `url` — URL. Тип — [String ](../../sql-reference/data-types/string.md ).
**Возвращаемое значение**
- `username:password@host:port` .
Тип: `String` .
**Пример**
Запрос:
``` sql
SELECT netloc('http://paul@www.example.com:80/');
```
Результат:
``` text
┌─netloc('http://paul@www.example.com:80/')─┐
│ paul@www.example.com:80 │
└───────────────────────────────────────────┘
```
2020-03-20 18:20:59 +00:00
## Функции, удаляющие часть из URL-а {#funktsii-udaliaiushchie-chast-iz-url-a}
2017-10-25 05:27:09 +00:00
2017-03-12 17:58:51 +00:00
Если в URL-е нет ничего похожего, то URL остаётся без изменений.
2020-03-20 18:20:59 +00:00
### cutWWW {#cutwww}
Удаляет не более одного ‘ www.’ с начала домена URL-а , если есть.
### cutQueryString {#cutquerystring}
2017-03-12 17:58:51 +00:00
Удаляет query string. Знак вопроса тоже удаляется.
2020-03-20 18:20:59 +00:00
### cutFragment {#cutfragment}
2017-03-12 17:58:51 +00:00
Удаляет fragment identifier. Символ решётки тоже удаляется.
2020-03-20 18:20:59 +00:00
### cutQueryStringAndFragment {#cutquerystringandfragment}
2017-03-12 17:58:51 +00:00
Удаляет query string и fragment identifier. Знак вопроса и символ решётки тоже удаляются.
2020-03-20 18:20:59 +00:00
### cutURLParameter(URL, name) {#cuturlparameterurl-name}
2017-03-12 17:58:51 +00:00
Удаляет параметр URL с именем name, если такой есть. Функция работает при допущении, что имя параметра закодировано в URL в точности таким же образом, что и в переданном аргументе.
2018-10-16 10:47:17 +00:00
2020-01-30 10:34:55 +00:00
[Оригинальная статья ](https://clickhouse.tech/docs/ru/query_language/functions/url_functions/ ) <!--hide-->