Преобразование Юникода в эквивалент ASCII (SCRAPY) - PullRequest
1 голос
/ 03 мая 2019

Я использую Scrapy, чтобы сканировать статьи с сайта новостей и добавлять их в mongoDB. Но при вставке я получил Unicode-символы в MongoDb, как это

«статья»: «Сатья Наделла, исполнительный вице-президент Microsoft по облачным и корпоративным технологиям, только что был назван следующим генеральным директором компании.

Я пытался

FEED_EXPORT_ENCODING = "utf-8"

Но это работало только тогда, когда я запускаю сканер и экспортирую данные в файл JSON, а не при хранении данных в MongoDB

В файле spider.py я написал эту строку кода, чтобы получить статью

item["article"]=response.xpath('//p/text()').getall()

item["article"] =' '.join(item['article'])

Как заменить эти символы на их эквивалент ASCII?

1 Ответ

1 голос
/ 03 мая 2019

Это решение сработало для меня ( Кодировка символов в python, чтобы заменить 'u2019' на ')

import unidecode 

a=unidecode.unidecode( "Satya Nadella, Microsoft\u2019s executive vice president of cloud and enterprise, has just been named the company\u2019s next CEO.")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...