Как получить все данные в CSV-файл с помощью scrapy? - PullRequest
0 голосов
/ 09 апреля 2020

По этому коду я получаю только последние данные с этого сайта. Как я хочу получить все данные, но это не работает правильно. Что я сделал не так в этом коде?

import scrapy


class YellowPages(scrapy.Spider):
    name = 'yp'

    start_urls = [
           "https://www.yellowpages.com/search?search_terms=agent&geo_location_terms=Los%20Angeles%2C%20CA&page=1",
           ]

    def parse(self, response):
        agent_name = response.xpath("//a[@class='business-name']/span/text()").extract()
        phone_number = response.xpath("//div[@class='phones phone primary']/text()").extract()
        address = response.xpath("//div[@class='street-address']/text()").extract()
        locality = response.xpath("//div[@class='locality']/text()").extract()


        data = zip(agent_name, phone_number, address, locality)

        for item in data:
            info = {
                'page' : response.url,
                'Agent_name': item[0],
                'Phone_number': item[1],
                'address': item[2],
                'locality':item[3],
            }

        yield info 

Я также сделал это в файле setting.py.

FEED_FORMAT="csv"
FEED_URI="yp.csv"

Данные, которые я получаю в моем файле CSV -

page,Agent_name,Phone_number,address,locality
https://www.yellowpages.com/search?search_terms=agent&geo_location_terms=Los%20Angeles%2C%20CA&page=1,Pedro Maldonado - State Farm Insurance Agent,(323) 583-1111,1933 E Florence Ave,"Los Angeles, CA 90001"

Там должно быть 30 строк со всеми данными, но я получаю только 1 строку и которая должна быть последней строкой моего предпочтительного набора данных

1 Ответ

0 голосов
/ 09 апреля 2020

Вам нужно только правильно указать отступ для последней строки, чтобы быть внутри for-l oop, и ваш код будет работать так, как ожидалось. Прямо сейчас вы вызываете yield info вне вас для -l oop, и поэтому только значения, которые связаны с вашими переменными после последнего l oop, будут записаны в ваш CSV. Сделайте отступ для параметра for-l oop, и каждый результат будет правильно записан в ваш csv-файл. Таким образом, ваш код будет выглядеть следующим образом:

class YellowPages(scrapy.Spider):
    name = 'yp'

    start_urls = [
           "https://www.yellowpages.com/search?search_terms=agent&geo_location_terms=Los%20Angeles%2C%20CA&page=1",
           ]

    def parse(self, response):
        agent_name = response.xpath("//a[@class='business-name']/span/text()").extract()
        phone_number = response.xpath("//div[@class='phones phone primary']/text()").extract()
        address = response.xpath("//div[@class='street-address']/text()").extract()
        locality = response.xpath("//div[@class='locality']/text()").extract()


        data = zip(agent_name, phone_number, address, locality)

        for item in data:
            info = {
                'page' : response.url,
                'Agent_name': item[0],
                'Phone_number': item[1],
                'address': item[2],
                'locality': item[3],
            }
            yield info
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...