split()
функция при передаче без разделения параметров только на основе пробелов, присутствующих в строке.
Метод tfds.features.text.Tokenizer()
tokenize()
имеет больше способов расщепления текста, чем только пробел. Вы можете видеть это в GitHub код хранилища . В настоящее время значение reserved_tokens
по умолчанию не задано, но для свойства alphanum_only
установлено значение True по умолчанию.
Следовательно, потенциально многие не алфавитно-цифровые символы отфильтровываются, и, следовательно, вы получаете меньшее количество токенов.