Я пытаюсь использовать antiword для преобразования файлов .doc в текст. Однако некоторые из моих файлов не конвертируются полностью. Похоже, это происходит только тогда, когда таблицы появляются в текстовом документе.
Например, в этом текстовом документе (через штат Луизиана) антислово пропускает текст между таблицей на странице 14 и таблицей на странице 17.
Вот команды Python и bash, которые я использовал (они дали одинаковые результаты):
Python:
text = subprocess.run(
['antiword', '-m', '8859-1.txt', '-'],
input=input_file,
stdout=subprocess.PIPE,
stderr=subprocess.DEVNULL
).stdout.decode(encoding='latin-1')
Баш:
antiword input_file > output_file
Кто-нибудь из пользователей antiword когда-либо сталкивался с этой проблемой, и если да, есть ли способ ее исправить?