Как получить docx2txt для обработки всех файлов docx в каталоге? - PullRequest
0 голосов
/ 17 апреля 2019

Я использую модуль docx2txt в python2.7 и пытаюсь заставить его обрабатывать все файлы docx в одном каталоге.В настоящее время у меня есть doc2txt.process («НАИМЕНОВАНИЕ DOCUMENT.docx»)

Я хочу обработать все файлы docx в текущем рабочем каталоге, но я не уверен, как это сделать

Я вставил свой код ниже.Распечатывает имя файла и текст в файле docx.

import os
import docx2txt

os.chdir('c:/users/Says/desktop')

files = []

path = 'c:/users/Says/desktop'



my_text = docx2txt.process("test.docx")

for files in os.listdir(path):
    if files.endswith('docx'):
        print(files)
        print(my_text)

1 Ответ

1 голос
/ 17 апреля 2019

Вы на полпути.

Создайте список для хранения всех найденных файлов:

files = []
for file in os.listdir(path):
    if file.endswith('.docx'):
        files.append(file)

Затем вы можете использовать оператор for для циклического прохождения всехфайлы и открывайте их по одному:

for i in range(len(files)):
    text = docx2txt.process(files[i])
    # Do something with the text.

Если вы хотите изменить свой код, чтобы разрешить использование текущего рабочего каталога, вы можете задать свой путь:

path = os.getcwd()
...