Как получить список URL файла с помощью urllib.request? - PullRequest
1 голос
/ 26 марта 2020
from urllib.request import urlopen
import re

urlpath =urlopen("http://blablabla.com/file")
string = urlpath.read().decode('utf-8')

pattern = re.compile('*.docx"')
onlyfiles = pattern.findall(string)

print(onlyfiles)

Целевой вывод

['http://blablabla.com/file/1.docx','http://blablabla.com/file/2.docx']

Но я получил это

[]

Я получаю это сообщение об ошибке при попытке этого.

re.error: nothing to repeat at position 0

1 Ответ

1 голос
/ 26 марта 2020

Звезда из этой строки:

pattern = re.compile('*.docx"')

По-видимому, python известная ошибка:

Проверьте следующие связанные ответы: ошибка регулярного выражения - ничего не повторяется

Попробуйте это, используя слово или az регулярное выражение:

pattern = re.compile('\w*.docx"')
# or
pattern = re.compile('[a-zA-Z0-9]*.docx"')
...