Question

https://epolicy.companyname.co.in/PRODUCTNAME/UI/PremiumCalculation.aspx?utm_source=rtb&utm_medium=display&utm_campaign=dbmew-Category-pros&dclid=CO2g3u7Gy98CFUOgaAodUv4E0w

У меня есть миллионы таких URL, и я хочу извлечь из этого две вещи.

PRODUCTNAME: всегда предшествует https://epolicy.companyname.co.in
*. Aspx: доступ к странице

Я попробовал следующее регулярное выражение

re.findall('([a-zA-Z]+\.aspx | https://epolicy\.companyname\.co\.in/(.*?)/UI)', URL)

и несколько его вариантов. Но это не сработало. Какой это правильный способ сделать это?

Usman · Answer 1 · 14 марта 2019

Попробуйте!

Код:

import re
url = "https://epolicy.companyname.co.in/PRODUCTNAME/UI/PremiumCalculation.aspx?utm_source=rtb&utm_medium=display&utm_campaign=dbmew-Category-pros&dclid=CO2g3u7Gy98CFUOgaAodUv4E0w"
print(re.findall('https://[^/]*/(.*)/UI/(.*).aspx', url))

Выход:

[('PRODUCTNAME', 'PremiumCalculation')]

Daniel Roseman · Answer 2 · 14 марта 2019

Regex не совсем подходит для использования здесь.Вместо этого проанализируйте URL, разделите путь и получите первый и последний элементы.

from urllib.parse import urlparse
from pathlib import PurePath

components = urlparse(url)
path = PurePath(url.path)
product_name = path.parts[1]
page = path.stem

Как извлечь из строки более одного шаблона, используя регулярные выражения Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь из строки более одного шаблона, используя регулярные выражения Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов