На самом деле у меня есть восемь ".txt" файлов и два ".docx" файла в file_list. Моя задача - убрать все стоп-слова и знаки препинания из всех файлов в списке файлов. Я просто предоставил некоторую часть кода, где я сталкиваюсь с ошибкой. Может кто-нибудь, пожалуйста, сообщите мне, как убрать стоп-слова и знаки препинания из всех типов файлов. Я попробовал следующий код, но не могу выполнить его успешно. Я также предоставляю папку здесь. file_list . Также, когда я запускаю следующий код, я сталкиваюсь с ошибкой UTF-8 для файлов .docx.
from string import punctuation
for each_file in range(1, len(file_list)):
print("Current working filename is:",file_list[each_file],end="\n")
with open(file_list[each_file],'r',encoding='utf-8') as file:
without_punct = [char for char in file.readlines() if char not in punctuation]
print(without_punct)