Scrapy splash - цикл сохраняет все значения только в один элемент - PullRequest
0 голосов
/ 30 марта 2019

Я использую Scrapy с всплеском, чтобы очистить значения Javascript-сайта Код работает отлично и паук соскребает все интересные значения. Проблема в том, что он сохраняет все эти значения только в одном элементе.

class Spider(CrawlSpider):
    name = "test"
    start_urls = ["http://example.com/results"]

    rules = (
        Rule(LinkExtractor(restrict_xpaths = ('//div[contains(@class, "products")]'), ),
             callback="parse",
             follow=False),)

    def start_requests(self):
       for url in self.start_urls:

           yield SplashRequest(url,callback=self.parse, endpoint='render.html', args={'wait':25.5})

    def parse(self, response):

       product_list = response.xpath('//div[contains(@class, "products")]').extract()

       for items in product_list:
          item=TestItem()
          item['CompanyName'] = response.xpath('').extract()
          item['Revenue'] = response.xpath('').extract()
          item['Tag'] = response.xpath('').extract()
          yield item

Я не вижу ничего плохого в приведенном выше коде. Все мои вещи находятся в одном разделе. Но есть множественные элементы div, содержащие эти элементы. Веб-сайт показывает много результатов на одной странице, из которой мне нужно взять эти значения. Например, в div products есть 10 различных элементов, содержащих указанные элементы.

Вывод выглядит следующим образом:

CompanyName,Tagline,Revenue
XcompanyName, YcomapnyName, ZCompanyName
Xtagline, Ytagline, Ztagline
Xrevenue, Yrevenue, Zrevenue

Пока я хочу, чтобы это было:

CompanyName,Tagline,Revenue
XcompanyName, Ytagline, Zrevenue
YcompanyName, Ytagline, Yrevenue
ZcompanyName, Ztagline, Zrevenue

Сайт CSS:

<div class="products">
            <div id="ember1" class="product ember-view"><a href="/product/NameCompany" id="ember1" class="product-link ember-view">  <div class="product-card-header">
    <div id="ember1" class="product-card-logo ember-view"><img src="https://storage.googleapis.com/" id="ember1" class="product-avatar-img ember-view">
</div>
    <div class="product-card-header-t">
      <span class="product-card__name">NameCompany</span>
      <span class="product-card__tagline">Simple</span>
    </div>
  </div>

<!---->
    <div class="product-card-revenue">
      <div class="product-card-revenue-t">
        <span class="product-card-revenue-r">
          $0
          <span class="product-card-slash">/</span>
          <span class="product-card-period">month</span>
        </span>

        <span class="product-revenue">
<!---->          reported
        </span>
      </div>
    </div>
</div>

EDIT:

Если я использую extract_first() в моем xpath для элементов, формат файла правильный, но он только сохраняет информацию из одного div и пропускает остальные.

1 Ответ

0 голосов
/ 30 марта 2019

@ Умайр ответил правильно

    def parse_attr(self, response):

       for items in response.xpath(''):
          item = TestItem()
          item['CompanyName'] = items.xpath('').extract()
          item['Revenue'] = items.xpath('').extract()
          item['Tag'] = items.xpath('').extract()
          yield item

Мне нужно было передать items (НЕ элемент) внутри цикла, а не объект ответа. Ответ был определен в рамках рассматриваемых вопросов. Теперь вывод имеет правильный формат.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...