Правильный ли приведенный ниже подход для одного горячего кодирования входных последовательностей и вывода в LSTM: -
Генерация текста - это то, над чем я работаю
'tokens' - это список словарь моего корпуса длиной 118212
уникальные токены 7837
seq - это вход для моего lstm с 80 токенами в одном предложении и длиной списка 118131
'слово' - у выхода есть один токен, который должен быть предсказан
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb=mlb.fit([tokens])
outputencoded=mlb.transform(word)
inputencoded=mlb.transform(seq)
Правильный ли подход выше? Могу ли я использовать «многослойный бинаризатор» вместо «to_categorical»? Я не видел никого, кто использовал бы что-нибудь кроме 'to_categorical'
Любая помощь будет оценена, спасибо заранее:)