Как найти «num_words» или размер словаря токерайзера Keras, если он не назначен? - PullRequest
0 голосов
/ 28 ноября 2018

Так что, если бы я не передавал аргумент num_words при инициализации Tokenizer(), как мне найти размер словаря после того, как он используется для токенизации обучающего набора данных?

Почему я неЯ не хочу ограничивать размер словаря токенайзера, чтобы знать, насколько хорошо моя модель Keras работает без него.Но затем мне нужно передать этот размер словаря в качестве аргумента в определении первого слоя модели.

1 Ответ

0 голосов
/ 28 ноября 2018

Все слова и их индексы будут сохранены в словаре, к которому вы можете получить доступ, используя tokenizer.word_index.Следовательно, вы можете найти количество уникальных слов на основе количества элементов в этом словаре:

num_words = len(tokenizer.word_index) + 1

Это + 1 из-за резервирования заполнения (т. Е. Индекса ноль).

Примечание : Это решение (очевидно) применимо, когда вы не установили аргумент num_words (т.е. вы не знаете или не хотите ограничивать количество слов), поскольку word_index содержит все слова (и не только самые частые слова), независимо от того, установлен ли вы num_words или нет.

...