Microsoft Word Text Parser в "C" - PullRequest
       9

Microsoft Word Text Parser в "C"

0 голосов
/ 19 ноября 2008

Я хотел бы знать, какую процедуру принять для анализа и получения текстового содержимого из документов Microsoft Word (.doc и .docx) Используемый язык программирования должен быть простым "C" (должен быть gcc).

Есть ли библиотеки, которые уже выполняют эту работу,

* Расширение

: могу ли я использовать ту же процедуру для анализа текста из файлов Microsoft Power Point?

Ответы [ 4 ]

1 голос
/ 19 мая 2014

Если вы хотите использовать COM-интерфейс в C, вы можете использовать интерфейс IFilter , встроенный в каждую версию Windows начиная с Windows 2000. Вы можете использовать его для извлечения текста из любого офисного документа (Word, Excel и т. д.), файла PDF или любого типа, для которого установлена ​​поддержка IFilter.

Я написал в блоге об этом несколько лет назад. Это все C ++, но вы можете использовать COM-объекты из C.

1 голос
/ 19 ноября 2008

Документы Microsoft Word - огромное чудовище - вы определенно не хотите писать этот код самостоятельно. Рассмотрите возможность использования существующей бесплатной библиотеки Word, такой как antiword или wvWare .

1 голос
/ 19 ноября 2008

в windows, пусть word выполняет работу и взаимодействует с COM-объектом, в linux работа выполнена в antiword . Или вы можете автоматизировать OpenOffice.org на любой платформе с объектной моделью UNO .

1 голос
/ 19 ноября 2008

Я не знаю, какие библиотеки существуют, но спецификации форматов можно получить по адресу Microsoft бесплатно и под обещанием не предъявлять вам иск за их использование.

...