Нормализация строки Python Unicode - PullRequest
0 голосов
/ 20 апреля 2020

Я довольно новичок в обработке текста.

Я вытащил текст с веб-сайта, используя Selenium.

Я извлек нужный текст.

Мой текст в виде длинной строки Unicode:

type(master_string)
>>>unicode

print(master_string)
>>>u'I'd like to begin by saying something.'

Я нормализую, используя библиотеку unicodedata:

master_string = unicodedata.normalize('NFKD', master_string).encode('ascii', 'ignore').decode('utf-8', 'ignore')

Нормализация master_string отбрасывает апострофы:

print(master_string)
>>>u'Id like to begin by saying something.'

Я пробовал некоторые другие варианты нормализации (NFD, et c.).

Не уверен, что не так.

Указания, пожалуйста.

...