Я пытаюсь перебрать объединенный список из двух списков, который, по сути, представляет собой пакет слов - пример выводит выходы [('brexit', 11), ('say', 11), ('uk', 7), ('eu', 6), ('deal', 5), ('may', 5), ..., ('brexit', 35), ('say', 28),, ('may', 5), (' uk ', 1), ...]
Собрав все текстовые входные данные из файлов .txt, я удалил стоп-слова и с помощью stemming удалил дублирующиеся слова из времен.
Следующим шагом, который я хочу сделать, является циклический просмотр списка и поиск различий в количестве появлений данного слова - я бы хотел, чтобы 'brexit', 'say' и 'uk' были помеченыкак значимые слова с двумя числами появлений или просто разницей.Мой старт кода (частично python, частично псевдокод) приведен ниже.
def findSimilarities (word, count):
for (word, count) in biasDict:
if word == word and count != count:
print (word, count - count)
elif word ==word and count == count:
del (word, count)
(word, count)++
Какой-нибудь совет, как подойти к этому и отредактировать код для работы?Если бы это было лучше, я мог бы сделать так, чтобы слова приходили из двух отдельных списков (как они создаются; я связал их после того, как они были созданы).
Большое спасибо.