Как получить только уникальные href элементы в селене в python - PullRequest
0 голосов
/ 10 апреля 2020

Я пытаюсь извлечь все ссылки href в теге привязки, используя селен для моего проекта очистки веб-страниц в python.

У меня несколько страниц на одной странице, и я пытаюсь получить доступ к href элементы для одной страницы.

Ниже приведен код:


url = "https://www.carwale.com/used/cars-for-sale/#sc=-1&so=-1&pn=1"

driver.get(url) 

links=driver.find_elements_by_xpath('//*[@href]')

for l in links:
    print(l.get_attribute('href'))  

При запуске моего кода один и тот же элемент href печатается несколько раз.

Фрагмент Вывода кода:

https://www.carwale.com/used/cars-in-chennai/ford-figo-2010-2012-d2115418/?slot=4&rk=1&isP=true

https://www.carwale.com/used/cars-in-chennai/ford-figo-2010-2012-d2115418/?slot=4&rk=1&isP=true

https://www.carwale.com/used/cars-in-chennai/ford-figo-2010-2012-d2115418/?slot=4&rk=1&isP=true

Как заставить его печатать только один раз?

1 Ответ

0 голосов
/ 10 апреля 2020

сделать что-то вроде:

url = "https://www.carwale.com/used/cars-for-sale/#sc=-1&so=-1&pn=1"

driver.get(url) 
processed = []
links = driver.find_elements_by_xpath('//*[@href]')
for link in links:
    if link not in processed:
        print(link.get_attribute('href'))
        processed.append(link)
    else:
        continue

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...