Как заменить в слове алфавит шляпой (или неправильного формата) - PullRequest
0 голосов
/ 14 июля 2020

Я выполняю задание НЛП на голландском языке. Я столкнулся с проблемой, заключающейся в том, что есть много слов, которые имеют одинаковое значение, но написаны в разных форматах. Например:

hyponatriemie и hyponatriëm ie.

теперь мой алгоритм считает, что это два разных слова. но они такие же, с той лишь разницей, что буква ë. Таких слов очень много. Есть ли эффективный способ / пакет для замены всех слов с неправильной буквой на нормальные слова в обучающем корпусе?

Кстати, в голландском языке также всего 26 алфавитов (как и в английском sh ). некоторые из них написаны странным письмом. Было бы здорово идентифицировать все странные буквы и заменять их обычными английскими sh буквами, похожими на них. Например, ë ==> e

========= ОБНОВЛЕНИЕ ==================== Я нашел идеальный ответ в Python: заменить французские буквы на engli sh

...