Я пытался провести некоторую предварительную обработку во вложенном списке, прежде чем пытался использовать маленький word2vec, и столкнулся с проблемой, как показано ниже:
corpus = ['he is a brave king', 'she is a kind queen', 'he is a young boy', 'she is a gentle girl']
corpus = [_.split(' ') for _ in corpus]
[['он', 'есть', 'a', 'храбрый', 'король'], ['она', 'is', 'a', 'kind', 'queen'], [' он ',' есть ',' a ',' молодой ',' мальчик '], [' она ',' есть ',' a ',' нежный ',' девочка ']]
Таким образом, вышеприведенный вывод был представлен как вложенный список, и я намеревался удалить стоп-слова, например. 'is', 'a'.
for _ in range(0, len(corpus)):
for x in corpus[_]:
if x == 'is' or x == 'a':
corpus[_].remove(x)
[['он', 'a', 'храбрый', 'король'], ['она', 'a', 'kind', 'queen'], ['he', 'a', ' молодой ',' мальчик '], [' она ',' a ',' нежный ',' девочка ']]
Вывод показывает, что цикл пропускается к следующему подсписку после удаления 'is' в каждом подсписке вместо полной итерации.
В чем причина этого? Индекс? Если да, то как решить, если я хотел бы сохранить вложенную структуру.