проверьте, принадлежит ли слово к тому же корню - PullRequest
0 голосов
/ 08 января 2019

Я предоставляю часть своего кода в текстовом анализе для печати терминов. Я хочу знать, какое условие я должен поместить в цикл for, чтобы удалить те слова, которые принадлежат одному корню. Например, expanse, expand и expansion должны стать expand.

Wordnet Lemmatizer фактически не выполняет свою работу, поэтому я получаю несколько ненужных слов из того же корня, которые не нужны для анализа.

terms_list=[[tok  for tok in doc.split() if tok not in stoplist] for doc in stopped_tokens]
print(terms_list)
print(len(terms_list))

count=0
for doc in terms_list:

    for word in doc:
        print (word)

        if word == "|>" or word == "|>" or word == "_" or word == "-" or word == "#":
            terms_list[count].remove (word)
        if word == "?":
            terms_list[count].remove (word)
        if word == "...":
            terms_list[count].remove (word)    
        if word == "_/":
            terms_list[count].remove (word)  
        if word == "i" or word == "a":
            terms_list[count].remove (word)
        if word == "the" or word == "but" or word=="if" or word=="it":
            terms_list[count].remove (word)  
            count=count+1


print (terms_list)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...