Ссылка, которую вы пытаетесь очистить, больше не доступна, дайте нам еще одну ссылку с URL-адресами, чтобы я мог предоставить код.
В любом случае, я думаю, у вас есть 2 проблемы: удаление дубликатов из собранных данных и сохраненных эти данные в CSV.
1. удаление дубликатов из собранных данных: Когда вы получаете URL-адреса, сохраненные в списке, чтобы удалить дубликат, вам просто нужно преобразовать список, чтобы установить, а затем преобразовать его в список: список -> набор -> список
list_of_urls = ['url_1', 'url_1', 'url_2', 'url_1', 'url_1', 'url_2', 'url_3', 'url_3']
set_of_urls = set(list_of_urls) # return : {'url_1', 'url_2', 'url_3'}
list_clean = list(set_of_urls) # return :['url_3', 'url_1', 'url_2']
# or directly: list_clean = list(set(list_of_urls))
2. Сохраните чистые данные в CSV-файле:
Это чистый подход, шаг за шагом: предположим, что вам нужно только хранить электронную почту, это означает, что 1 столбец в нашем CSV-файле
with open('emails.csv', 'w') as csv_file: #create a file called emails.csv and open it in write mode / csv_file = file-like object
w = csv.writer(csv_file, lineterminator='\n') # create the writer(csv file), which will write rows one by one on the csv_file (Return a writer object)
header = ['emails']
w.writerow(header) # .writerow(list) : get list and add it to the table as row
for email in list_clean : #list_clean is the list of emails already collected
# each loop create 1 row: val1, val2 val3
w.writerow(['email']) #.writerow(list) each row on each loop will be added to the file (row must be an iterable of strings or numbers)
Если вы хотите сохранить свои данные в текстовом файле (1 столбец не обязательно должен быть в CSV):
with open('emails.txt', 'w') as f:
for i in list_clean:
f.write("%s\n" % i)