Антислово не преобразует полный текст - PullRequest
0 голосов
/ 11 марта 2019

Я пытаюсь использовать antiword для преобразования файлов .doc в текст. Однако некоторые из моих файлов не конвертируются полностью. Похоже, это происходит только тогда, когда таблицы появляются в текстовом документе.

Например, в этом текстовом документе (через штат Луизиана) антислово пропускает текст между таблицей на странице 14 и таблицей на странице 17.

Вот команды Python и bash, которые я использовал (они дали одинаковые результаты):

Python:

text = subprocess.run(
    ['antiword', '-m', '8859-1.txt', '-'],
    input=input_file,
    stdout=subprocess.PIPE,
    stderr=subprocess.DEVNULL
    ).stdout.decode(encoding='latin-1')

Баш:

antiword input_file > output_file

Кто-нибудь из пользователей antiword когда-либо сталкивался с этой проблемой, и если да, есть ли способ ее исправить?

...