Python - захватить весь текст в .docx и сбросить в .txt - PullRequest
0 голосов
/ 29 октября 2019

Мне интересно, как бы я написал скрипт на Python для выполнения следующего набора шагов: (1) открыть типичный .docx, (2) выбрать все, (3) скопировать в буфер обмена, (4) сохранить в видеstring.

Меня не волнует ни форматирование, ни графика, ни таблицы. Я просто хочу, чтобы текст хранился как гигантская строка для анализа и анализа.

Ответы [ 2 ]

1 голос
/ 29 октября 2019

Поскольку вы говорите о docx, вы можете использовать python-docx https://python -docx.readthedocs.io / en / latest /

В соответствии с документацией, которую вы можете написатьчто-то вроде этого

def getText(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return '\n'.join(fullText)

Чтобы получить весь текст, затем, используя что-то вроде pyperclip, вы можете скопировать его в буфер обмена. Поэтому, не пытаясь это сделать, я бы представил что-то вроде

import docx
import pyperclip

textInFile = getText("yourDoc.docx")
pyperclip.copy(textInFile)

https://github.com/asweigart/pyperclip

0 голосов
/ 29 октября 2019

Есть библиотеки, которые помогут с этим. Взгляните на python-docx, который, несмотря на ориентацию на создание и обновление файлов docx, позволит вам прочитать содержимое документа.

Этот ответ ЗДЕСЬ может помочь вам начать, но отнюдь не завершен.

Вот ссылка на документацию python-docx .

...