Question

Я хотел знать, возможно ли использовать вложение слов для классификации каждого слова в предложении. Из того, что я видел в своем исследовании, генерируется объект tokenizer, который используется для отображения слов из предложения в целые числа. В результате получается двухмерный вектор, в котором отображается каждое слово из предложения. Но этот 2D-вектор представляет собой «предложение» слов и имеет отдельную классификацию меток для каждого предложения.

Пока мой код:

from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=8000)
tokenizer.fit_on_texts(sentences_train)
sequences = tokenizer.texts_to_sequences(sentences_train)

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

data = pad_sequences(sequences, maxlen=30, padding='post')

labels = np.asarray(labels)

и форма моих данных ( упрощена для понимания ):

Shape of data tensor: (1, 30)
Shape of label tensor: (22, 8)

Но это означает, что для каждого предложения у меня есть 30 слов и 22 метки длиной 8.

Я хотел знать, возможно ли классифицировать каждое слово в предложении для каждого образца? Где каждое слово представлено как 100-мерный вектор. Я был бы признателен, если кто-нибудь может направить меня на сайт или исследование, которое имеет больше информации об этом!

Спасибо

Использование вложения слов для задачи классификации нескольких классов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование вложения слов для задачи классификации нескольких классов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы