Есть ли модуль для поиска в документах msword doc на linux? - PullRequest
3 голосов
/ 20 октября 2011

Обычно я ищу с grep -r --color word /path/dir, но это плохо работает с двоичными файлами.Поэтому я хотел бы написать Perl-скрипт, который бы делал нечто подобное.Поэтому я ищу модуль, который может читать doc-файлы на Linux-машине (возможно, что-то аналогичное Spreadsheet :: ParseExcel для ms-word-documents).

Ответы [ 2 ]

3 голосов
/ 20 октября 2011

Существует много конвертеров слов в текст (например, antidoc, wv, catdoc, unoconv ...).Вы можете просмотреть их вывод.Это также то, что msysgit делает для каталогизации файлов документов.

1 голос
/ 20 октября 2011

Не пытаясь казаться странным, это опасность работы с закрытыми исходными документами.Возможно, вы застряли, используя инструменты, предоставленные разработчиком.

К вашему актуальному вопросу вы можете сделать несколько вещей:

  1. Откройте файл и сохраните его в формате RTF (richтекст) или даже в виде простого текста, это должно быть более доступным для поиска.
  2. Открыть с помощью LibreOffice (называемого OpenOffice до форсирования форсирования Oracle), что может позволить более настраиваемый поиск (если кто-то предоставил такой плагин) иликоторый можно использовать для конвертации по методу 1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...