Извлечение доменного имени из URL реферера с использованием регулярных выражений в Presto DB - PullRequest
0 голосов
/ 30 мая 2018

Я пытаюсь извлечь имя домена из списка URL-адресов реферера в PrestoDB.Используя функцию url_extract_host, у меня есть список, как показано ниже.Я застрял, пытаясь получить доменное имя из строки.

Presto использует синтаксис шаблона в стиле Java.

У меня есть список строк ниже, все из которых должны возвращать google

google.com google.co.il blog.google.com blog.google.co.il

Спасибо, любая помощь приветствуется

1 Ответ

0 голосов
/ 31 мая 2018

Я думаю, вы можете создать регулярные выражения из Публичного списка суффиксов , поддерживаемого Mozilla.

Но выражение будет иметь длину более 100 000 байтов - в настоящее время существует более 8500 открытых суффиксов,включая довольно много не-ascii, которые могут быть закодированы как с UTF-8, так и с punycode, и ваше выражение, вероятно, должно будет поддерживать обе кодировки.

...