удалить знаки препинания и стоп-слова из всех файлов ".txt" и ".docx" в папке zip - PullRequest
0 голосов
/ 08 апреля 2020

На самом деле у меня есть восемь ".txt" файлов и два ".docx" файла в file_list. Моя задача - убрать все стоп-слова и знаки препинания из всех файлов в списке файлов. Я просто предоставил некоторую часть кода, где я сталкиваюсь с ошибкой. Может кто-нибудь, пожалуйста, сообщите мне, как убрать стоп-слова и знаки препинания из всех типов файлов. Я попробовал следующий код, но не могу выполнить его успешно. Я также предоставляю папку здесь. file_list . Также, когда я запускаю следующий код, я сталкиваюсь с ошибкой UTF-8 для файлов .docx.

from string import punctuation

for each_file in range(1, len(file_list)):
    print("Current working filename is:",file_list[each_file],end="\n") 
    with open(file_list[each_file],'r',encoding='utf-8') as file:
        without_punct = [char for char in file.readlines() if char not in punctuation]
    print(without_punct)

1 Ответ

0 голосов
/ 08 апреля 2020

Вы получаете ошибку кодирования для файлов .docx, потому что файл .docx не является стандартным текстовым файлом, то есть он имеет свой собственный формат. Python изначально поддерживает чтение текстовых файлов, поэтому это работает для файлов .txt, но не для файлов .docx. Я предлагаю использовать библиотеку, такую ​​как python -docx , чтобы извлечь текст из файлов .docx

...