Gensim и Scikit-learn включают функцию «удаления акцентов» из текста Unicode.Однако реализации отличаются незначительно.В чем, собственно, разница между ними, если таковая имеется?
Вот версия Gensim :
norm = unicodedata.normalize("NFD", text)
result = ''.join(ch for ch in norm if unicodedata.category(ch) != 'Mn')
return unicodedata.normalize("NFC", result)
И версия Scikit-learn :
normalized = unicodedata.normalize('NFKD', s)
if normalized == s:
return s
else:
return ''.join([c for c in normalized if not unicodedata.combining(c)])