Поиск строки с проблемой findall regex python 3 - PullRequest
0 голосов
/ 01 октября 2018

Ниже приведен список веб-адресов.Однако я хотел бы напечатать только имя хоста каждого адреса.

http://www.askoxford.com
http://www.hydrogencarsnow.com
http://www.bnsf.com
http://web.archive.org

Ожидаемый результат:

askoxford.com
hydrogencarsnow.com
bnsf.com
web.archive.org

Мой код:

import re
import codecs
raw = codecs.open("D:\Python\gg.txt",'r',encoding='utf-8')
string = raw.read()
link = re.findall(r'www\.(\w+\.com|\w+\.org)',string)
print(link)

Текущий выход:

['askoxford.com', 'askoxford.com', 'hydrogencarsnow.com', 'bnsf.com']

По состоянию на текущий вывод, он не включает hostname.org.Я не уверен в пути к условию make OR для reg перед строкой.

Мои попытки: link = re.findall(r'(http://www\.|http://)(\w+\.com|\w+\.org)',string), но он не работает, так как собирает http ... с именем хоста.

...