Извлечение содержимого из DOCX в код Python - PullRequest
0 голосов
/ 10 июля 2019

Я учился создавать файлы DOCX с использованием Python.Тем не менее, у меня есть документ, который я хочу автоматизировать обычное редактирование с помощью Python.Редактирование (удаление или добавление) должно осуществляться на основе терминов, найденных в электронной таблице Excel.

У меня есть около 25 страниц документа с различными форматами, таблицами, абзацами, заголовками и некоторыми изображениями.Есть ли способ извлечь все это в код Python, где я могу добавить термины, основанные на электронной таблице Excel, о том, что печатать или оставлять в файле docx?

Основная проблема - содержание DOCX -> PythonКОД

Пример. Если документ, который я читал, содержит только абзац с надписью «Тест», то в коде будет создан отдельный новый код, в котором будет указано: document.add_paragraph ('Test')

1 Ответ

0 голосов
/ 11 июля 2019

Зависит от того, что вы хотите сделать с текстом.Если вы хотите вернуть его на место в docx, вам нужно взглянуть на python-docx или отредактировать сам xml.

Если вы хотите перестроить древовидный документструктура из некоторой кучи текста, несколько библиотек python будут извлекать текст для вас (python-docx, docx2txt, docx2python).

Вот как вы можете редактировать текст в docx2python

from docx2python import docx2python
from docx2python.iterators import enum_paragraphs

content = docx2python('input.docx').document

for (i, j, k), paragraph in enum_paragraphs(content):
    content[i][j][k] = transforming_function(paragraph)
...