У меня есть набор неофициальных документов (несколько тысяч), к которым я хочу применить тематическое моделирование (MALLET).Проблема в том, что в документах содержится много слов с ошибками.Большинство из них являются преднамеренными, такими как короткие формы и локальные языки, такие как `'juz' -> 'just', 'alr' -> 'Уже'.Существует несколько таких вариаций из-за особых стилей написания разных авторов.
После подачи их в MALLET я немного обеспокоился тем, что одна из сгенерированных тем на самом деле представляет собой набор слов с орфографическими ошибками.Я полагаю, что эти слова в основном используются в небольшом подмножестве документов того же автора, поэтому МАЛЛЕТ поднял их.
Мой вопрос заключается в том, проверяю ли я орфографию и исправляю ли эти наборы слов с ошибками и, возможно, сохраняюисправленный текст где-нибудь, прежде чем проводить на них дальнейшие задания?Я полагаю, это означало бы, что мне нужно вручную проверить исправления, прежде чем совершать, верно?Какой самый эффективный способ сделать это?
Или я действительно игнорирую эти слова с ошибками?