По этому коду я получаю только последние данные с этого сайта. Как я хочу получить все данные, но это не работает правильно. Что я сделал не так в этом коде?
import scrapy
class YellowPages(scrapy.Spider):
name = 'yp'
start_urls = [
"https://www.yellowpages.com/search?search_terms=agent&geo_location_terms=Los%20Angeles%2C%20CA&page=1",
]
def parse(self, response):
agent_name = response.xpath("//a[@class='business-name']/span/text()").extract()
phone_number = response.xpath("//div[@class='phones phone primary']/text()").extract()
address = response.xpath("//div[@class='street-address']/text()").extract()
locality = response.xpath("//div[@class='locality']/text()").extract()
data = zip(agent_name, phone_number, address, locality)
for item in data:
info = {
'page' : response.url,
'Agent_name': item[0],
'Phone_number': item[1],
'address': item[2],
'locality':item[3],
}
yield info
Я также сделал это в файле setting.py.
FEED_FORMAT="csv"
FEED_URI="yp.csv"
Данные, которые я получаю в моем файле CSV -
page,Agent_name,Phone_number,address,locality
https://www.yellowpages.com/search?search_terms=agent&geo_location_terms=Los%20Angeles%2C%20CA&page=1,Pedro Maldonado - State Farm Insurance Agent,(323) 583-1111,1933 E Florence Ave,"Los Angeles, CA 90001"
Там должно быть 30 строк со всеми данными, но я получаю только 1 строку и которая должна быть последней строкой моего предпочтительного набора данных