Использование вложения слов для задачи классификации нескольких классов - PullRequest
0 голосов
/ 15 июня 2019

Я хотел знать, возможно ли использовать вложение слов для классификации каждого слова в предложении. Из того, что я видел в своем исследовании, генерируется объект tokenizer, который используется для отображения слов из предложения в целые числа. В результате получается двухмерный вектор, в котором отображается каждое слово из предложения. Но этот 2D-вектор представляет собой «предложение» слов и имеет отдельную классификацию меток для каждого предложения.

Пока мой код:

from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=8000)
tokenizer.fit_on_texts(sentences_train)
sequences = tokenizer.texts_to_sequences(sentences_train)

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

data = pad_sequences(sequences, maxlen=30, padding='post')

labels = np.asarray(labels)

и форма моих данных ( упрощена для понимания ):

Shape of data tensor: (1, 30)
Shape of label tensor: (22, 8)

Но это означает, что для каждого предложения у меня есть 30 слов и 22 метки длиной 8.

Я хотел знать, возможно ли классифицировать каждое слово в предложении для каждого образца? Где каждое слово представлено как 100-мерный вектор. Я был бы признателен, если кто-нибудь может направить меня на сайт или исследование, которое имеет больше информации об этом!

Спасибо

...