Как изменить текст оболочки для сохранения в формате CSV? - PullRequest
0 голосов
/ 05 октября 2018

Я пытаюсь сделать этот код выводимым в файл csv при вызове паука с -o output.csv

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import SitemapSpider
from scrapy.spiders import Spider
from scrapy.http import Request, XmlResponse
from scrapy.utils.sitemap import Sitemap, sitemap_urls_from_robots
from scrapy.utils.gz import gunzip, is_gzipped
import re
import requests

class GetpagesfromsitemapSpider(SitemapSpider):
    name = "test"
    handle_httpstatus_list = [404]

    def parse(self, response):
       print response.url

    def _parse_sitemap(self, response):
        if response.url.endswith('/robots.txt'):
            for url in sitemap_urls_from_robots(response.body):
                yield Request(url, callback=self._parse_sitemap)
        else:
            body = self._get_sitemap_body(response)
            if body is None:
                self.logger.info('Ignoring invalid sitemap: %s', response.url)
                return

            s = Sitemap(body)
            sites = []
            if s.type == 'sitemapindex':
                for loc in iterloc(s, self.sitemap_alternate_links):
                    if any(x.search(loc) for x in self._follow):
                        yield Request(loc, callback=self._parse_sitemap)
            elif s.type == 'urlset':
                for loc in iterloc(s):
                    for r, c in self._cbs:
                        if r.search(loc):
                            sites.append(loc)
                            break
            print sites

    def __init__(self, spider=None, *a, **kw):
            super(GetpagesfromsitemapSpider, self).__init__(*a, **kw)
            self.spider = spider
            l = []
            url = "https://channelstore.roku.com"
            resp = requests.head(url + "/sitemap.xml")
            if (resp.status_code != 404):
                l.append(resp.url)
            else:
                resp = requests.head(url + "/robots.txt")
                if (resp.status_code == 200):
                    l.append(resp.url)
            self.sitemap_urls = l
            print self.sitemap_urls

def iterloc(it, alt=False):
    for d in it:
        yield d['loc']

        # Also consider alternate URLs (xhtml:link rel="alternate")
        if alt and 'alternate' in d:
            for l in d['alternate']:
                yield l

Я попытался изменить URL-адрес ответа на печать в строке 18 на несколько вещей, ноКажется, я не могу вывести этот сценарий в CSV, все, что я могу сделать, это увидеть точную информацию, которую я хочу, но на экране терминала.

Этот код взят из здесь , но я нехорошо работает с легкой частью кода.

Любая помощь очень ценится!

1 Ответ

0 голосов
/ 05 октября 2018

Непонятно из вашего примера, но похоже, что вы не передаете аргументы командной строки (-o) вашему SitemapSpider.

Более простое решение, вместо передачи аргумента -o, состоит в том, чтобы просто перенаправить вывод в файл:

my_script.py > output.csv

ИЛИ

my_script.py | tee output.csv <- этот способ будет записывать в файл, а также выводить на ваш терминал </p>

РЕДАКТИРОВАТЬ: Не самый эффективный способ, но без просмотра полного сценария:

def parse(self, response):
    with open('output.csv', 'a') as fh:
        fh.write('{}\n'.format(response.url))

Это добавит каждый response.url к новой строке в файле output.csv

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...