Альтернатива однократному кодированию для вывода в модель, когда размер словаря очень большой - PullRequest
0 голосов
/ 31 мая 2018

Я подписывался на этот блог .В нем он рассказывает о том, как построить языковую модель в керасе.Он показывает, как построить простую модель в керасе.

После разделения нам нужно одно горячее кодирование выходного слова.Это означает преобразование его из целого числа в вектор из 0 значений, по одному на каждое слово в словаре, с 1 для указания конкретного слова в индексе целочисленного значения слов.

Это так, чтомодель учится предсказывать распределение вероятности для следующего слова, а основополагающая истина, из которой можно выучить, равна 0 для всех слов, кроме фактического слова, которое следует далее.

Keras предоставляет to_categorical (), который можно использовать дляодно горячее кодирование выходных слов для каждой пары последовательностей ввода-вывода.

Он использует следующее:

y = to_categorical(y, num_classes=vocab_size)

В его случае размер словаряэто управляемо.Я работаю со словарем размером более 100 миллионов.Думаю, мне не следует использовать горячую кодировку для вывода y, как он сделал.Есть ли альтернатива?

...