Я выполняю задание НЛП на голландском языке. Я столкнулся с проблемой, заключающейся в том, что есть много слов, которые имеют одинаковое значение, но написаны в разных форматах. Например:
hyponatriemie и hyponatriëm ie.
теперь мой алгоритм считает, что это два разных слова. но они такие же, с той лишь разницей, что буква ë. Таких слов очень много. Есть ли эффективный способ / пакет для замены всех слов с неправильной буквой на нормальные слова в обучающем корпусе?
Кстати, в голландском языке также всего 26 алфавитов (как и в английском sh ). некоторые из них написаны странным письмом. Было бы здорово идентифицировать все странные буквы и заменять их обычными английскими sh буквами, похожими на них. Например, ë ==> e
========= ОБНОВЛЕНИЕ ==================== Я нашел идеальный ответ в Python: заменить французские буквы на engli sh