Как преобразовать .docx в .txt в Python - PullRequest
0 голосов
/ 12 июля 2020

Я хотел бы преобразовать большую партию файлов MS Word в простой текстовый формат. Понятия не имею, как это сделать в Python. Я нашел в Интернете следующий код. Мой путь локальный, и все имена файлов похожи на cx-xxx (т.е. c1-000, c1-001, c2-000, c2-001 et c.):

from docx import [name of file]
import io
import shutil
import os

def convertDocxToText(path):
for d in os.listdir(path):
    fileExtension=d.split(".")[-1]
    if fileExtension =="docx":
        docxFilename = path + d
        print(docxFilename)
        document = Document(docxFilename)
        textFilename = path + d.split(".")[0] + ".txt"
        with io.open(textFilename,"c", encoding="utf-8") as textFile:
            for para in document.paragraphs: 
                textFile.write(unicode(para.text))

path= "/home/python/resumes/"
convertDocxToText(path)

1 Ответ

2 голосов
/ 12 июля 2020

Преобразование docx в txt с помощью pypando c:

import pypandoc

# Example file:
docxFilename = 'somefile.docx'
output = pypandoc.convert_file(docxFilename, 'txt', outputfile="somefile.txt")
assert output == ""

См. Официальную документацию здесь:

https://pypi.org/project/pypandoc/

...