Как применить технику SMOTE (передискретизация) перед слоем встраивания слов - PullRequest
0 голосов
/ 20 ноября 2018

Как применить алгоритм SMOTE перед слоем встраивания слов в LSTM.

У меня проблема с бинарной классификацией текста (хороший (9500) или плохой (500) обзор с общим количеством обучающих выборок 10000 и несбалансированным обучением)образец), значит, когда я использую LSTM с предварительно обученными встраиваниями слов (100-мерное пространство для каждого слова), так что каждый обучающий ввод имеет идентификаторы (Всего 50 идентификаторов с нулями, а также, когда текстовое описание имеетменьше 50 слов и обрезается до 50, когда в описании превышено 50 символов) словаря слов.

Ниже приведен мой общий поток

  • Ввод - 1000 (пакет) X 50 (длина последовательности)
  • Вложение слова - 200 (Уникальное словарное слово) X 100 (представление слова)
  • После слоя встраивания слова (новый ввод для LSTM) - 1000 (партия) X 50 (последовательность)X 100 (характеристики)
  • Конечное состояние из LSTM 1000 (партия) X 100 (единицы измерения)
  • Применение конечного слоя 1000 (партия) X 100 X [100 (единицы измерения) X 2 (класс вывода))]

Все, что я хочу, чтобы генерировать больше данных для Плохой обзор с помощью SMOTE

...