Один вход и выход LSTM с горячим кодированием - PullRequest
0 голосов
/ 25 февраля 2020

Правильный ли приведенный ниже подход для одного горячего кодирования входных последовательностей и вывода в LSTM: -

Генерация текста - это то, над чем я работаю

'tokens' - это список словарь моего корпуса длиной 118212

уникальные токены 7837

seq - это вход для моего lstm с 80 токенами в одном предложении и длиной списка 118131

'слово' - у выхода есть один токен, который должен быть предсказан

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb=mlb.fit([tokens])
outputencoded=mlb.transform(word)
inputencoded=mlb.transform(seq)

Правильный ли подход выше? Могу ли я использовать «многослойный бинаризатор» вместо «to_categorical»? Я не видел никого, кто использовал бы что-нибудь кроме 'to_categorical'

Любая помощь будет оценена, спасибо заранее:)

...