Question

Я использую Scrapy, чтобы сканировать статьи с сайта новостей и добавлять их в mongoDB. Но при вставке я получил Unicode-символы в MongoDb, как это

«статья»: «Сатья Наделла, исполнительный вице-президент Microsoft по облачным и корпоративным технологиям, только что был назван следующим генеральным директором компании.

Я пытался

FEED_EXPORT_ENCODING = "utf-8"

Но это работало только тогда, когда я запускаю сканер и экспортирую данные в файл JSON, а не при хранении данных в MongoDB

В файле spider.py я написал эту строку кода, чтобы получить статью

item["article"]=response.xpath('//p/text()').getall()

item["article"] =' '.join(item['article'])

Как заменить эти символы на их эквивалент ASCII?

carl · Answer 1 · 03 мая 2019

Это решение сработало для меня ( Кодировка символов в python, чтобы заменить 'u2019' на ')

import unidecode 

a=unidecode.unidecode( "Satya Nadella, Microsoft\u2019s executive vice president of cloud and enterprise, has just been named the company\u2019s next CEO.")

Преобразование Юникода в эквивалент ASCII (SCRAPY)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразование Юникода в эквивалент ASCII (SCRAPY)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов