После создания списка слов из предложений и удаления шума и стоп-слов, приведя все к тем же случаям, у вас останется набор слов, оставшихся в данных.
Тогда вы можете позвонить в библиотеку
nlp = spacy.load('en', disable=['parser', 'ner'])
или как
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
тогда вы можете определить функцию, чтобы отфильтровать существительные слова, такие как:
def filter_nouns(texts, tags=['NOUN']):
output = []
for x in texts:
doc = nlp(" ".join(x))
output.append([token.lemma_ for token in doc if token.pos_ in tags])
return output
тогда вы можете применить определенную функцию к очищенным данным
Надеюсь, это окажется полезным