обучение фасттекстовых моделей социальному контенту - PullRequest
0 голосов
/ 28 марта 2020

В настоящее время я изучаю классификацию текста с помощью Facebook FastText. Я нашел некоторые данные из Kaggle, содержащие такие символы, как �� или имя пользователя в твиттере и хэштеги. Я попытался выполнить поиск в Интернете, однако нет никаких разъяснений о том, как вам действительно нужно очистить / предварительно обработать ваш текст перед тренировкой модели.

В некоторых блогах я видел авторов, пишущих о токенизации, однако в фасттексте об этом не упоминается. Еще один момент: у fasttext git есть примеры чистых данных, таких как stackoverflow, но ничего для твиттера или такой платформы.

Вопрос в том, что является наилучшей практикой для предварительной обработки пользовательского (социального) контента, созданного перед обучением модели? Что нужно отредактировать?

Спасибо

1 Ответ

1 голос
/ 28 марта 2020

Поскольку FastText-Classifier не работает с предварительно подготовленными вложениями, вы можете в значительной степени выбрать собственный способ очистки данных. Я бы посоветовал вам:

  • преобразовать все в нижний регистр (или, если хотите, в верхний регистр, это не имеет значения).
  • И я бы удалил специальные символы рядом с # и @.

    Все остальное зависит от вас. Вы можете оставить хэштеги или удалить их, то же самое относится и к именам пользователей. Я бы, наверное, удалил имена пользователей, потому что, думаю, в них не так много информации. Но в некоторых случаях это может быть информативным: подумайте о твиттах и ​​ответах Дональда Трампа, его имя пользователя часто используется, я думаю. Просто попробуйте то, что лучше всего подходит для вашего случая. FastText очень быстрый, поэтому несколько экспериментов не станут большой проблемой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...