Как найти слово в файле DOCX в C ++? - PullRequest
0 голосов
/ 25 марта 2011

Я пишу поисковую программу на С ++, которая будет искать набор слов в наборе файлов. Эти файлы являются либо текстовыми файлами, либо файлами DOCX. не могу открыть даже, если мне нужно преобразовать его в текстовый файл, какова процедура и как я буду искать его?

Ответы [ 3 ]

4 голосов
/ 25 марта 2011

.docx - это zip с кучей XML-файлов.Это документально подтверждено на http://openxmldeveloper.org/articles/GuidedTourOfSpecPart1.aspx

1 голос
/ 25 марта 2011

Форматы файлов OOXML официально документированы в ECMA-376 .Существует эквивалентный стандарт ISO (29500, если память служит), но я считаю, что вы должны заплатить, чтобы получить его, и оба идентичных 1 .Однако, как предупреждение, это огромные документы, а сами форматы файлов определенно нетривиальны.Просто получить необработанный текст - это относительно легкая задача, но все же не совсем тривиальная.«Программа, в которой они принимают существующий стандарт без изменений, даже в некоторых случаях, когда он не полностью соответствует нормам ISO.

0 голосов
/ 27 марта 2011

Если вы не можете написать свой собственный анализатор OOXML, вы можете конвертировать файлы docx с помощью docx2txt .

...