Модель Encoder-Decorder для прогнозирования рейтинга - PullRequest
0 голосов
/ 11 декабря 2018

У меня огромный корпус неструктурированного текста (где я уже очистил и разложил токены следующим образом.

Unstructured text -> cleaning the data -> get only the informative words -> calculate different features

Пример (предположим, у меня есть только 5 слов):

Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}

Для каждого слова у меня также есть особенности (рассмотрим, у меня есть только 3 функции)

Features = {Frequency, TF-IDF, MI}

Однако,Я не уверен, возможно ли использовать эти особенности при обучении модели seq2seq.

Мой вывод представляет собой ранжированный список информативных слов.

Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}

В текущих урокахЯ следую, у них есть несколько обучающих примеров, таких как:

X=[22, 17, 23, 5, 29, 11] y=[23, 17, 22]
X=[28, 2, 46, 12, 21, 6] y=[46, 2, 28]
X=[12, 20, 45, 28, 18, 42] y=[45, 20, 12]
X=[3, 43, 45, 4, 33, 27] y=[45, 43, 3]
X=[34, 50, 21, 20, 11, 6] y=[21, 50, 34]

Но в моей задаче у меня есть только одна входная последовательность и выходная последовательность.

Пример:

Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}
Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}

Поэтому я немного сбит с толку, как определить мою архитектуру? Или есть какая-либо другая модель ML / DL, которую я могу использовать для своей задачи?

...