Согласно этой ссылке , target_vocab_size:
int, приблизительный размер словаря для создания. Это утверждение довольно двусмысленно для меня.Насколько я понимаю, кодировщик сопоставит каждый словарь с уникальным идентификатором.Что произойдет, если корпус имеет vocab_size
больше, чем target_vocab_size
?