Как вытащить все домены из URL-ссылок? - PullRequest
0 голосов
/ 13 марта 2020

Я пытаюсь вытащить все домены из ссылок, используя urlparse. Но по какой-то причине иногда я получаю список доменов, а иногда следующее сообщение об ошибке:

Объект NoneType не является подписным

В чем проблема? И как я могу это исправить? Спасибо!

UPD : Хорошо, я уже решил это. Вот решение

if arg.name:
try:
    page = requests.get(arg.name)
    soup = BeautifulSoup(page.text,features='html.parser')
    links = soup.findAll("a")
    for i in links:

        domain = urlparse(i.get("href")).hostname 
        **if type(domain) == str:**
            if clink.get(domain):
                clink[domain]+=1
            else:
                clink[domain]=1
    for key in sorted(clink, key=lambda x: x[-1]):
        print(key, clink[key])

except Exception as e:
    print("Incorrect address! Try again!" + '\n\n' + "More about this error: " + '\n\n' + str(e))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...