Я предоставляю часть своего кода в текстовом анализе для печати терминов. Я хочу знать, какое условие я должен поместить в цикл for, чтобы удалить те слова, которые принадлежат одному корню. Например, expanse
, expand
и expansion
должны стать expand
.
Wordnet Lemmatizer фактически не выполняет свою работу, поэтому я получаю несколько ненужных слов из того же корня, которые не нужны для анализа.
terms_list=[[tok for tok in doc.split() if tok not in stoplist] for doc in stopped_tokens]
print(terms_list)
print(len(terms_list))
count=0
for doc in terms_list:
for word in doc:
print (word)
if word == "|>" or word == "|>" or word == "_" or word == "-" or word == "#":
terms_list[count].remove (word)
if word == "?":
terms_list[count].remove (word)
if word == "...":
terms_list[count].remove (word)
if word == "_/":
terms_list[count].remove (word)
if word == "i" or word == "a":
terms_list[count].remove (word)
if word == "the" or word == "but" or word=="if" or word=="it":
terms_list[count].remove (word)
count=count+1
print (terms_list)