Каково текущее состояние техники дополнения данных о классификации текста?
Я провел онлайн-исследование о том, как я могу расширить свой тренировочный набор, выполнив некоторое преобразование данных, так же, как мы делаем это при классификации изображений.,Я нашел несколько интересных идей, таких как:
Замена синонима: Произвольно выбирайте n слов из предложения, которое не останавливает слова.Замените каждое из этих слов одним из выбранных случайным образом синонимов.
Случайная вставка: найдите случайный синоним случайного слова в предложении, которое не является стоп-словом.Вставьте этот синоним в случайное место в предложении.Сделайте это n раз.
Случайный обмен: Случайно выберите два слова в предложении и поменяйте местами.Сделайте это n раз.
Случайное удаление: Произвольное удаление каждого слова в предложении с вероятностью p.
Но ничего об использовании предварительно обученногомодель представления вектора слова, такая как word2vec.Есть ли причина?
Увеличение данных с помощью word2vec может помочь модели получить больше данных на основе внешней информации.Например, случайным образом заменить токен комментария в предложении на его более близкий токен в предварительно обученном векторном пространстве, специально обученном для внешних онлайн-комментариев.
Это хороший метод или я упускаю некоторые важные недостатки этоготехника?