Я просмотрел темы по этой конкретной теме, но ни одно из решений не применимо к моей ситуации, и мне нужна помощь в этом, пожалуйста. Я пытаюсь подготовить свои данные для обучения, используя модель нейронного языка. Мои данные уже были предварительно обработаны и сохранены в текстовом файле. Пример данных выглядит следующим образом: ["restaurant", "paris", "district", "gunman", "hold", "hostage" ...] и форма массива (10848135,) в соответствии с атрибутом формы массива,Тем не менее, я получаю сообщение об ошибке индекса, когда я пытаюсь нарезать данные с помощью оператора X, y = sequences[:,:-1], sequences[:,-1]
Код выглядит следующим образом:
def encode_words(self, dataset):
data = dataset.split('\n')
tokenizer = Tokenizer()
tokenizer.fit_on_texts(dataset)
sequences = tokenizer.texts_to_sequences(dataset)
vocab_size = len(tokenizer.word_index) + 1
sequences = array(sequences)
X, y = sequences[:,:-1], sequences[:,-1]
y = to_categorical(y, num_classes=vocab_size)
seq_length = X.shape[1]
return X, y, vocab_size, seq_length, tokenizer
Я понимаю, что это за ошибка, но нене знаю, как это исправить. Пожалуйста, мне нужна помощь, чтобы код работал. Ниже приведено полное сообщение об ошибке:
Traceback (последний вызов был последним):
File "/home/asifa/anaconda3/deep_learning_project/processor.py", line 15, in <module>
X,y,vocab_size,seq_length,tokenizer = emb.encode_words(seq_data)
File "/home/asifa/anaconda3/deep_learning_project/WordEmbedding.py", line 67, in encode_words
X, y = sequences[:,:-1], sequences[:,-1]
IndexError: too many indices for array