Gensim deaccent () и sklearn strip_accents_unicode ()

Gensim и Scikit-learn включают функцию «удаления акцентов» из текста Unicode.Однако реализации отличаются незначительно.В чем, собственно, разница между ними, если таковая имеется?

Вот версия Gensim :

norm = unicodedata.normalize("NFD", text)
result = ''.join(ch for ch in norm if unicodedata.category(ch) != 'Mn')
return unicodedata.normalize("NFC", result)

И версия Scikit-learn :

normalized = unicodedata.normalize('NFKD', s)
if normalized == s:
    return s
else:
    return ''.join([c for c in normalized if not unicodedata.combining(c)])

Gensim deaccent () и sklearn strip_accents_unicode ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Gensim deaccent () и sklearn strip_accents_unicode ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы