Каково научное название этого метода текстового токенизатора? - PullRequest
0 голосов
/ 24 апреля 2018

Я новичок в машинном обучении, и я видел этот метод в учебнике некоторое время назад, но больше не могу его найти.Я уверен, что это не мешок слов или одно горячее кодирование или n-грамм, хотя.

пример метода:

This is an example sentence

мой словарь будет выглядеть так:

This 0
is 1
an 2
example 3
sentence 4

так что токенизированное предложение будет 0 1 2 3 4

Как оно называется?

РЕДАКТИРОВАТЬ: Опечатка

1 Ответ

0 голосов
/ 24 апреля 2018

Это просто обработка отдельных слов (уникальных токенов) как категориальных признаков .Категориальным переменным могут быть назначены значения только из конечного набора, в вашем случае из набора неотрицательных целых чисел до количество слов .Затем предложение представляется в виде последовательности токенов, сопоставленных с их присвоениями значений.Обычно это просто предшественник горячего кодирования.

...