Как добавить скопированные данные в набор в Python - PullRequest
0 голосов
/ 08 января 2019

Я пытаюсь создать URL-адреса с веб-сайта и отправить их в файл .CSV с помощью набора, чтобы удалить дублирующиеся URL-адреса. Я понимаю, что такое набор и как его создать, я просто не понимаю, как отправлять данные в наборе. Я предполагаю, что это в цикле for, но я новичок в Python и не совсем уверен. Вот конец моего кода:

url_list=soup.find_all('a')
with open('HTMLList.csv','w',newline="") as f:
    writer=csv.writer(f,delimiter=' ',lineterminator='\r')
    for link in url_list:
        url=str(link.get('href'))
        if url:
            if 'https://www.example.com' not in url:
                url = 'https://www.example.com' + url
            writer.writerow([url])
f.close()

Я знаю, что мне нужно создать set () и добавить URL-адреса в набор, но я не уверен, как, и мне сказали, что это также избавит от любых дубликатов, что было бы здорово. Любая помощь приветствуется. Спасибо!

1 Ответ

0 голосов
/ 08 января 2019

Вы можете создать набор, добавить URL-адреса в набор, а затем записать его в файл

url_list=set()
for link in url_list:
        url=str(link.get('href'))
        if url:
            if 'https://www.example.com' not in url:
                url = 'https://www.example.com' + url
            url_list.add(url)

with open('HTMLList.csv','w',newline="") as f:
    writer=csv.writer(f,delimiter=' ',lineterminator='\r')
    for i in url_list:
        writer.writerow([i])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...