Я пытаюсь получить данные с веб-сайта, но я хочу выбрать первую 1000 ссылок, открытых по одной, и получить данные оттуда.
Я пробовал:
list_links = driver.find_elements_by_tag_name('a')
for i in list_links:
print (i.get_attribute('href'))
через это получение дополнительных ссылок, которые не требуются.
например: https://www.magicbricks.com/property-for-sale/residential-real-estate?bedroom=1,2,3,4,5,%3E5&proptype=Multistorey-Apartment,Builder-Floor-Apartment,Penthouse,Studio-Apartment,Residential-House,Villa,Residential-Plot&cityName=Mumbai
мы получим ссылку более 50к. Как открыть только первые 1000 ссылок внизу со свойствами фотографии.
Редактировать
Я пробовал это также:
driver.find_elements_by_xpath("//div[@class='.l-srp__results.flex__item']")
driver.find_element_by_css_selector('a').get_attribute('href')
for matches in driver:
print('Liking')
print (matches)
#matches.click()
time.sleep(5)
Но получаю ошибку: TypeError: 'WebDriver' object is not iterable
Почему я не получаю ссылку, используя эту строку: driver.find_element_by_css_selector('a').get_attribute('href')
Редактировать 1
Я пытаюсь отсортировать ссылки, как показано ниже, но получаю ошибку
result = re.findall(r'https://www.magicbricks.com/propertyDetails/', my_list)
print (result)
Ошибка: TypeError: ожидаемая строка или байтовоподобный объект
или пробовал
a = ['https://www.magicbricks.com/propertyDetails/']
output_names = [name for name in a if (name[:45] in my_list)]
print (output_names)
Ничего не получается.
Все ссылки находятся в списке. Пожалуйста, предложите
Заранее спасибо. Пожалуйста, предложите