Question

Вот мой паук

from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from vrisko.items import VriskoItem

class vriskoSpider(CrawlSpider):
    name = 'vrisko'
    allowed_domains = ['vrisko.gr']
    start_urls = ['http://www.vrisko.gr/search/%CE%B3%CE%B9%CE%B1%CF%84%CF%81%CE%BF%CF%82/%CE%BA%CE%BF%CF%81%CE%B4%CE%B5%CE%BB%CE%B9%CE%BF']
    rules = (Rule(SgmlLinkExtractor(allow=('\?page=\d')),'parse_start_url',follow=True),)

    def parse_start_url(self, response):
        hxs = HtmlXPathSelector(response)
        vriskoit = VriskoItem()
        vriskoit['eponimia'] = hxs.select("//a[@itemprop='name']/text()").extract()
        vriskoit['address'] = hxs.select("//div[@class='results_address_class']/text()").extract()
        return vriskoit

Моя проблема в том, что возвращаемые строки в кодировке Unicode, и я хочу закодировать их в utf-8. Я не знаю, какой это лучший способ сделать это. Я пробовал несколько способов без результата.

Заранее спасибо!

Lacek · Answer 1 · 27 декабря 2016

Начиная с Scrapy 1.2.0, вводится новый параметр FEED_EXPORT_ENCODING . Если указать его как utf-8, вывод JSON не будет экранирован.

То есть добавить в свой settings.py:

FEED_EXPORT_ENCODING = 'utf-8'

reclosedev · Answer 2 · 08 февраля 2012

Scrapy возвращает строки в юникоде, а не в ascii. Чтобы закодировать все строки в utf-8, вы можете написать:

vriskoit['eponimia'] = [s.encode('utf-8') for s in hxs.select('//a[@itemprop="name"]/text()').extract()]

Но я думаю, что вы ожидаете другого результата. Ваш код возвращает один элемент со всеми результатами поиска. Чтобы вернуть элементы для каждого результата:

hxs = HtmlXPathSelector(response)
for eponimia, address in zip(hxs.select("//a[@itemprop='name']/text()").extract(),
                             hxs.select("//div[@class='results_address_class']/text()").extract()):
    vriskoit = VriskoItem()
    vriskoit['eponimia'] = eponimia.encode('utf-8')
    vriskoit['address'] = address.encode('utf-8')
    yield vriskoit

Обновление

JSON exporter записывает символы Unicode, экранированные (например, \u03a4) по умолчанию, потому что не все потоки могут обрабатывать Unicode. Он имеет возможность записать их как Unicode ensure_ascii=False (см. Документы для json.dumps ). Но я не могу найти способ передать эту опцию стандартному экспортеру фидов.

Таким образом, если вы хотите, чтобы экспортируемые элементы были записаны в кодировке utf-8, например, для чтения их в текстовом редакторе вы можете написать собственный конвейер элементов.

pipelines.py:

import json
import codecs

class JsonWithEncodingPipeline(object):

    def __init__(self):
        self.file = codecs.open('scraped_data_utf8.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

    def spider_closed(self, spider):
        self.file.close()

Не забудьте добавить этот конвейер в settings.py:

 ITEM_PIPELINES = ['vrisko.pipelines.JsonWithEncodingPipeline']

Вы можете настроить конвейер для записи данных в более удобочитаемом формате, например, Вы можете создать некоторый форматированный отчет. JsonWithEncodingPipeline это просто базовый пример.

mikeulkeul · Answer 3 · 12 сентября 2013

У меня было много проблем из-за кодирования с python и scrapy.Чтобы избежать ошибок кодирования, лучше всего написать:

unicode(response.body.decode(response.encoding)).encode('utf-8')

FreeCat · Answer 4 · 06 июля 2017

Попробуйте добавить следующую строку в файл конфигурации для Scrapy (например, settings.py ):

FEED_EXPORT_ENCODING = 'utf-8'

Guan-Ming Huang · Answer 5 · 16 октября 2016

Я нахожу простой способ сделать это.Сохраняет данные json в «SpiderName» .json с «utf8»

from scrapy.exporters import JsonItemExporter

class JsonWithEncodingPipeline(object):

    def __init__(self):
        self.file = open(spider.name + '.json', 'wb')
        self.exporter = JsonItemExporter(self.file, encoding='utf-8', ensure_ascii=False)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        self.file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

banzayats · Answer 6 · 04 ноября 2016

Как упоминалось ранее, экспортер JSON записывает экранированные символы Юникода и имеет возможность записать их как юникод ensure_ascii=False.

Чтобы экспортировать элементы в кодировке utf-8, вы можете добавить их в * 1004 вашего проекта.* file:

from scrapy.exporters import JsonLinesItemExporter
class MyJsonLinesItemExporter(JsonLinesItemExporter):
    def __init__(self, file, **kwargs):
        super(MyJsonLinesItemExporter, self).__init__(file, ensure_ascii=False, **kwargs)

FEED_EXPORTERS = {
    'jsonlines': 'yourproject.settings.MyJsonLinesItemExporter',
    'jl': 'yourproject.settings.MyJsonLinesItemExporter',
}

Затем запустите:

scrapy crawl spider_name -o output.jl

кодировка текста скрапа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

кодировка текста скрапа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов