Я пытаюсь извлечь все ссылки href в теге привязки, используя селен для моего проекта очистки веб-страниц в python.
У меня несколько страниц на одной странице, и я пытаюсь получить доступ к href элементы для одной страницы.
Ниже приведен код:
url = "https://www.carwale.com/used/cars-for-sale/#sc=-1&so=-1&pn=1" driver.get(url) links=driver.find_elements_by_xpath('//*[@href]') for l in links: print(l.get_attribute('href'))
При запуске моего кода один и тот же элемент href печатается несколько раз.
Фрагмент Вывода кода:
https://www.carwale.com/used/cars-in-chennai/ford-figo-2010-2012-d2115418/?slot=4&rk=1&isP=true
Как заставить его печатать только один раз?
сделать что-то вроде:
url = "https://www.carwale.com/used/cars-for-sale/#sc=-1&so=-1&pn=1" driver.get(url) processed = [] links = driver.find_elements_by_xpath('//*[@href]') for link in links: if link not in processed: print(link.get_attribute('href')) processed.append(link) else: continue