У меня огромный корпус неструктурированного текста (где я уже очистил и разложил токены следующим образом.
Unstructured text
-> cleaning the data
-> get only the informative words
-> calculate different features
Пример (предположим, у меня есть только 5 слов):
Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}
Для каждого слова у меня также есть особенности (рассмотрим, у меня есть только 3 функции)
Features = {Frequency, TF-IDF, MI}
Однако,Я не уверен, возможно ли использовать эти особенности при обучении модели seq2seq.
Мой вывод представляет собой ранжированный список информативных слов.
Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}
В текущих урокахЯ следую, у них есть несколько обучающих примеров, таких как:
X=[22, 17, 23, 5, 29, 11] y=[23, 17, 22]
X=[28, 2, 46, 12, 21, 6] y=[46, 2, 28]
X=[12, 20, 45, 28, 18, 42] y=[45, 20, 12]
X=[3, 43, 45, 4, 33, 27] y=[45, 43, 3]
X=[34, 50, 21, 20, 11, 6] y=[21, 50, 34]
Но в моей задаче у меня есть только одна входная последовательность и выходная последовательность.
Пример:
Informative words = {“Deep Learning”, “SVM”, “LSTM”, “Data Mining”, ‘Python’}
Target output = {‘SVM’, ‘Data Mining’, ‘Deep Learning’, ‘Python’, ‘LSTM’}
Поэтому я немного сбит с толку, как определить мою архитектуру? Или есть какая-либо другая модель ML / DL, которую я могу использовать для своей задачи?