Я прошел через это несколько лет назад. Вы можете:
Используйте Word для преобразования файла в какой-либо другой формат, ASCII, RTF, XML и т. Д.
Используйте стороннее приложение для преобразования в другой формат, такой как ASCII.
Доступ к Word API через OLE и непосредственное извлечение информации.
Я не мог найти универсальные библиотеки для чтения файлов Word, и тогда все приложения, которые читают файлы Word, работали только для подмножества. Слово менялось достаточно часто, так что им было трудно поспевать.
В некоторых документах перечислялись особенности старых форматов файлов Word, базовая структура файлов была чрезвычайно сложной. Без большого количества ресурсов было бы трудно синхронизировать код с форматом файла.
Изначально я использовал Perl для управления Word и создания новых документов, но решение было слишком хрупким. Позже я переключил все приложение на работу с PDF-файлами и отказался от Word.
Paul.