скрап-конвейер в JSON с китайскими иероглифами - PullRequest
0 голосов
/ 20 ноября 2018

Я пытаюсь очистить некоторые веб-материалы с китайскими иероглифами.содержимое выскоблено, как показано нижеу меня вопрос: как я могу сохранить китайский символ, напечатанный как есть, в файле * .json? Мне действительно не нужны эти закодированные символы Unicode:)

1 Ответ

0 голосов
/ 20 ноября 2018

Кажется, что json lib экранирует эти символы, попробуйте добавить ensure_ascii=False к json.dumps() следующим образом:

class JsonWriterPipeline(object):
    def open_spider(self, spider):
        self.file = open('log/DICT.%s.json' % time.strftime('%Y%m%d-%H%M%S', time.localtime()), 'tw')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        try:
            line = json.dumps(dict(item), indent=4, ensure_ascii=False) + "\n"
            self.file.write(line)
        except Exception as e:
            print(e)
        return item
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...