Как применить алгоритм SMOTE перед слоем встраивания слов в LSTM.
У меня проблема с бинарной классификацией текста (хороший (9500) или плохой (500) обзор с общим количеством обучающих выборок 10000 и несбалансированным обучением)образец), значит, когда я использую LSTM с предварительно обученными встраиваниями слов (100-мерное пространство для каждого слова), так что каждый обучающий ввод имеет идентификаторы (Всего 50 идентификаторов с нулями, а также, когда текстовое описание имеетменьше 50 слов и обрезается до 50, когда в описании превышено 50 символов) словаря слов.
Ниже приведен мой общий поток
- Ввод - 1000 (пакет) X 50 (длина последовательности)
- Вложение слова - 200 (Уникальное словарное слово) X 100 (представление слова)
- После слоя встраивания слова (новый ввод для LSTM) - 1000 (партия) X 50 (последовательность)X 100 (характеристики)
- Конечное состояние из LSTM 1000 (партия) X 100 (единицы измерения)
- Применение конечного слоя 1000 (партия) X 100 X [100 (единицы измерения) X 2 (класс вывода))]
Все, что я хочу, чтобы генерировать больше данных для Плохой обзор с помощью SMOTE