Токенизатор Keras: сохраняйте числа как «слова» - PullRequest
0 голосов
/ 04 августа 2020

Я использую токенизатор keras для подготовки текста. Теперь у меня есть значения x, такие как 26.07.2020 или 27.September 1993.

Я хочу использовать токенизатор либо для добавления September в качестве слова в индекс, но также 26 или 2020.

Раньше я использовал char_level = True, но я думаю, что модель должна работать лучше, если в качестве токена слова используются такие слова, как September. Возможно ли это с токенизатором keras, и если да, то как?

Большое спасибо.

1 Ответ

0 голосов
/ 04 августа 2020

Вы можете заменить . пробелами, Tokenizer разбивает ваше предложение пробелами, а затем токенизирует каждое слово.

Таким образом, простым решением будет

x.replace('.', ' ')
...