Использование регулярных выражений для извлечения URL-папки в Google Datastudio - PullRequest
0 голосов
/ 16 апреля 2020

в моем datastudio В настоящее время я пытаюсь извлечь папки URL и их подкаталоги, используя параметры группы в отдельных вычисляемых полях.

Первое вычисляемое поле выглядит примерно так:

REGEXP_EXTRACT(Landing Page,'https?:\\/\\/.*?\\/(.*?)\\/.*')

для каждого уровня папки я буду перемещать группу на один уровень каталога (и так далее ...):

REGEXP_EXTRACT(Landing Page,"https?:\\/\\/.*?\\/.*?\\/(.*?)\\/.*")

Проблема в том, что каждый URL без завершающего sla sh в конце get сгруппирован как "ноль". Я попытался сделать последний трейлинг sla sh необязательным, но это вообще не сработает.

REGEXP_EXTRACT(Landing Page,'https?:\\/\\/.*?\\/(.*?)\\/?.*')

1 Ответ

0 голосов
/ 16 апреля 2020

Я предлагаю использовать здесь отрицательные классы символов.

Чтобы получить первую часть, вы можете использовать

REGEXP_EXTRACT(Landing Page, "https?://[^/]+/([^/]+)/[^/]+")
                                              ^^^^^^^

Чтобы получить вторую, вы можете использовать

 REGEXP_EXTRACT(Landing Page, "https?://[^/]+/[^/]+/([^/]+)")
                                                     ^^^^^^^ 

Обратите внимание, что вам не нужно избегать символа /, это не специальный метасимвол регулярного выражения.

См. Демонстрационную версию regex .

...