В настоящее время я изучаю классификацию текста с помощью Facebook FastText. Я нашел некоторые данные из Kaggle, содержащие такие символы, как �� или имя пользователя в твиттере и хэштеги. Я попытался выполнить поиск в Интернете, однако нет никаких разъяснений о том, как вам действительно нужно очистить / предварительно обработать ваш текст перед тренировкой модели.
В некоторых блогах я видел авторов, пишущих о токенизации, однако в фасттексте об этом не упоминается. Еще один момент: у fasttext git есть примеры чистых данных, таких как stackoverflow, но ничего для твиттера или такой платформы.
Вопрос в том, что является наилучшей практикой для предварительной обработки пользовательского (социального) контента, созданного перед обучением модели? Что нужно отредактировать?
Спасибо