TensorFlow Tokenize по уникальной строке CSV, а не по уникальному слову в строке - PullRequest
2 голосов
/ 28 июня 2019

Я пытаюсь использовать токенизатор для классификации свободного текста по отдельным категориям.

Для функции я использую это:

x_tokenizer = Tokenizer()
x_tokenizer.fit_on_texts(x)
x_train = x_tokenizer.texts_to_matrix(x_train, mode='count')
x_test = x_tokenizer.texts_to_matrix(x_test, mode='count')

и x_tokenizer.word_docs возвращает что-то вроде этого:

defaultdict(<class 'int'>, {'name': 1, 'releasing': 1, 'one': 4, 'vehicle': 101, 'air': 3, 'vhel': 1, 'recently': 2})

Это имеет смысл для функции, но я хотел бы использовать каждый элемент строки для метки. Прямо сейчас для метки я использую тот же код:

y_tokenizer = Tokenizer()
y_tokenizer.fit_on_texts(y)
y_train = y_tokenizer.texts_to_matrix(y_train, mode='count')
y_test = y_tokenizer.texts_to_matrix(y_test, mode='count')

и возвращает что-то вроде этого:

defaultdict(<class 'int'>, {'a': 2, 'c': 2, 'language': 1, 'settings': 203, 'audio': 7, 'volume': 1})

но я хотел бы иметь это:

defaultdict(<class 'int'>, {'a/c': 2, 'language settings': 1, 'audio volume': 7})

чтобы каждое уникальное значение в столбце метки было представлено как уникальный токен. Как я мог это сделать?

Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...