Gensim deaccent () и sklearn strip_accents_unicode () - PullRequest
0 голосов
/ 19 ноября 2018

Gensim и Scikit-learn включают функцию «удаления акцентов» из текста Unicode.Однако реализации отличаются незначительно.В чем, собственно, разница между ними, если таковая имеется?

Вот версия Gensim :

norm = unicodedata.normalize("NFD", text)
result = ''.join(ch for ch in norm if unicodedata.category(ch) != 'Mn')
return unicodedata.normalize("NFC", result)

И версия Scikit-learn :

normalized = unicodedata.normalize('NFKD', s)
if normalized == s:
    return s
else:
    return ''.join([c for c in normalized if not unicodedata.combining(c)])
...