Я не хочу быть антагонистом, но почему?
Я извлек данные из документов Word на серверах Linux, используя Word2X или AbiWord, и в зависимости от количества и разнообразия документов всегда будут ошибки при извлечении. Это тем хуже, чем больше маркеров, разрывов страниц, разделов документов и других «специальных» функций.
Я понимаю, что теперь есть варианты для автоматизации OpenOffice для обработки документов, но я советую, если вы можете, просто использовать Word для обработки документов Word.