Конвертировать .doc / .docx в текст с сохранением таблиц - PullRequest
1 голос
/ 31 октября 2019

Я хочу конвертировать doc / docx файлы в текстовые файлы. Мое требование заключается в том, что таблицы должны быть как есть.

Я пробовал Python Tika. Преобразование строк в столбцы

Например, таблица во входном файле doc / docx

enter image description here

Над таблицей преобразуется в текст, подобныйниже

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO

Требуемый вывод похож (сохранить формат таблицы)

 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO

Пожалуйста, дайте мне знать, если это возможно.

1 Ответ

3 голосов
/ 31 октября 2019

Как предложил @ilmiacs pandoc может сделать это за вас.
Используя python, вам нужно установить pypandoc.
Тестовый документ:

enter image description here

import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))

дает вам:

enter image description here

Очевидно, у вас также есть возможность использовать subprocess, чтобы ударитьв командной строке.

...