Я хотел знать, возможно ли использовать вложение слов для классификации каждого слова в предложении. Из того, что я видел в своем исследовании, генерируется объект tokenizer
, который используется для отображения слов из предложения в целые числа. В результате получается двухмерный вектор, в котором отображается каждое слово из предложения. Но этот 2D-вектор представляет собой «предложение» слов и имеет отдельную классификацию меток для каждого предложения.
Пока мой код:
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=8000)
tokenizer.fit_on_texts(sentences_train)
sequences = tokenizer.texts_to_sequences(sentences_train)
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
data = pad_sequences(sequences, maxlen=30, padding='post')
labels = np.asarray(labels)
и форма моих данных ( упрощена для понимания ):
Shape of data tensor: (1, 30)
Shape of label tensor: (22, 8)
Но это означает, что для каждого предложения у меня есть 30 слов и 22 метки длиной 8.
Я хотел знать, возможно ли классифицировать каждое слово в предложении для каждого образца? Где каждое слово представлено как 100-мерный вектор. Я был бы признателен, если кто-нибудь может направить меня на сайт или исследование, которое имеет больше информации об этом!
Спасибо