Я довольно новичок в обработке текста.
Я вытащил текст с веб-сайта, используя Selenium.
Я извлек нужный текст.
Мой текст в виде длинной строки Unicode:
type(master_string)
>>>unicode
print(master_string)
>>>u'I'd like to begin by saying something.'
Я нормализую, используя библиотеку unicodedata
:
master_string = unicodedata.normalize('NFKD', master_string).encode('ascii', 'ignore').decode('utf-8', 'ignore')
Нормализация master_string
отбрасывает апострофы:
print(master_string)
>>>u'Id like to begin by saying something.'
Я пробовал некоторые другие варианты нормализации (NFD, et c.).
Не уверен, что не так.
Указания, пожалуйста.