Мне нужно
1) Очистить .txt из списка стоп-слов, который у меня есть в отдельном .txt.
2) После этого мне нужно сосчитать 25 наиболее часто встречающихся слов.
Вот что я придумал для первой части:
#!/usr/bin/python
# -*- coding: iso-8859-15 -*-
import re
from collections import Counter
f=open("text_to_be_cleaned.txt")
txt=f.read()
with open("stopwords.txt") as f:
stopwords = f.readlines()
stopwords = [x.strip() for x in stopwords]
querywords = txt.split()
resultwords = [word for word in querywords if word.lower() not in stopwords]
cleantxt = ' '.join(resultwords)
Для второйчасть, я использую этот код:
words = re.findall(r'\w+', cleantxt)
lower_words = [word.lower() for word in words]
word_counts = Counter(lower_words).most_common(25)
top25 = word_counts[:25]
print top25
Исходный файл для очистки выглядит следующим образом:
(b)
ввторой абзац, первое предложение, слова «и Высокому представителю» вставляются в конце;во втором предложении слова «он проводит ежегодные прения» заменяют словами «дважды в год они проводят прения», а в конце слова «включая общую политику в области безопасности и обороны» *.1019 *
Список стоп-слов выглядит следующим образом: это то, что они тебе, а затем и потом, потом их
Когда я запускаю все это, каким-то образом выходные данные все еще содержат слова изсписок стоп-слов:
[(«статья», 911), («европейский», 586), («тот», 586), («совет», 569), («союз», 530),(«член», 377), («штаты», 282), («парламент», 244), («комиссия», 230), («соответствие», 217), («договор», 187), («в 174), («процедура», 161), («политика», 137), («сотрудничество», 136), («законодательный», 136), («действующий», 130), («акт»), 125), («исправлено», 125), («государство», 123), («положения», 115), («безопасность», 113), («меры», 111), («принять», 109), ('common', 108)]
Как вы, вероятно, можете сказать, я только начал изучать python, поэтому я был бы очень благодаренФул для простых объяснений!:)
Используемые файлы можно найти здесь:
Stopwordlist
Файл, подлежащий очистке
РЕДАКТИРОВАТЬ: Добавлены примеры для исходного файла, стоп-файл и выходной.Предоставлены исходные файлы