Я использую приведенный ниже фрагмент кода для создания токенизатора для модели NMT.
tokenizer = tfds.features.text.SubwordTextEncoder.build_from_corpus(
(en.numpy() for tam, eng in data), target_vocab_size=2**13)
Когда я печатаю длину списка подслов:
print(len(tokenizer.subwords))
# 175
Но размер вокаба намного больше.
print(tokenizer.vocab_size)
# 432
Разве не должен словарьразмер будет длина списка, как указано выше?