У меня есть два текстовых файла:
- Stopwords.txt -> содержит стоп-слова по одному в строке
- text.txt -> файл большого документа
Я пытаюсь удалить все вхождения стоп-слов (любое слово в файле stopwords.txt) из файла text.txt без использования NLTK (школьное задание).
Как бы я поступил так? Это мой код до сих пор.
import re
with open('text.txt', 'r') as f, open('stopwords.txt','r') as st:
f_content = f.read()
#splitting text.txt by non alphanumeric characters
processed = re.split('[^a-zA-Z]', f_content)
st_content = st.read()
#splitting stopwords.txt by new line
st_list = re.split('\n', st_content)
#print(st_list) to check it was working
#what I'm trying to do is: traverse through the text. If stopword appears,
#remove it. otherwise keep it.
for word in st_list:
f_content = f_content.replace(word, "")
print(f_content)
но когда я запускаю код, сначала выводится что-то навсегда, а когда это происходит, он просто выводит весь текстовый файл. (Я новичок в Python, поэтому дайте мне знать, если я делаю что-то в корне неправильно!)