Я новичок в машинном обучении, и я видел этот метод в учебнике некоторое время назад, но больше не могу его найти.Я уверен, что это не мешок слов или одно горячее кодирование или n-грамм, хотя.
пример метода:
This is an example sentence
мой словарь будет выглядеть так:
This 0
is 1
an 2
example 3
sentence 4
так что токенизированное предложение будет 0 1 2 3 4
Как оно называется?
РЕДАКТИРОВАТЬ: Опечатка