Question

Я в первые дни обучения python, извините, если этот вопрос уже был задан.

Я пишу здесь, поскольку они мне не помогли, мое требование - прочитать файл и распечатав все URL внутри него. Внутри a для l oop шаблон регулярного выражения, который я использовал, был [^https://][\w\W]*, он работал нормально. Но я хотел знать, могу ли я динамически передать длину строки после https: // и получить результат с вхождениями вместо *

Я пытался [^https://][\w\W]{var}}, где var=len(line)-len(https://)

Это некоторые другие шаблоны, которые я пробовал, например

pattern = '[^https://][\w\W]{'+str(int(var))+'}'

pattern = r'[^https://][\w\W]{{}}'.format(var)

pattern = r'[^https://][\w\W]{%s}'%var

The fourth bird · Answer 1 · 03 апреля 2020

В вашем паттерне вы используете [^https://], который является отрицательным классом символов [^, который будет соответствовать любому символу, кроме перечисленного.

Один из вариантов - использовать буквенную строку интерполяция. Предполагая, что ваши ссылки не содержат пробелов, вы можете использовать \S вместо [\w\W], так как последний вариант будет соответствовать любому символу, включая пробелы и символы новой строки.

\bhttps://\S{{{var}}}(?!\S)

Regex demo

Утверждение (?!\S) в конце является границей пробела для предотвращения частичных совпадений, а граница слова \b не позволит http быть частью большего слова.

Python демо

Например

import re
line = "https://www.test.com"
lines = "https://www.test.com https://thisisatestt https://www.dontmatchme"

var=len(line)-len('https://')
pattern = rf"\bhttps://\S{{{var}}}(?!\S)"

print(re.findall(pattern, lines))

Вывод

['https://www.test.com', 'https://thisisatestt']

Philip · Answer 2 · 03 апреля 2020

Возможно, я неправильно понял ваш вопрос, но если вы знаете, что URL всегда начинается с https://, тогда это будут первые восемь символов. Затем вы можете получить длину после нахождения URL:

Out

stackoverflow.com/questions/61006253/use-dynamic-int-variable-inside-regex-pattern-python
google.com
stackoverflow.com

Вместо для l oop вы можете найти все URL, используя re.findall

import re

url_pattern = "((https:\/\/)([\w-]+\.)+[\w-]+[.+]+([\w%\/~\+#]*))"
# text referes to your document, that should be read before this
urls = re.findall(url_pattern, text)

# Using list comprehensions
# Get the unique urls by using set
# Only get text after https:// using [8:]
# Only parse the first element of the group that is returned by re.findall using [0]
unique_urls = list(set([x[0][8:] for x in urls]))

# print the urls
print(unique_urls)

используйте динамическую переменную c int внутри шаблона регулярного выражения python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

используйте динамическую переменную c int внутри шаблона регулярного выражения python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов