Мне недавно пришлось сделать нечто похожее на одном из моих проектов.
Посмотрите Как индексировать документы Word 2003, 2007 и 2010 с помощью Lucene.NET .
В итоге я создал собственный индексатор, который обрабатывал документы MS Office (формат XP, 2003, 2007 и 2010) и документы PDF:
- Для индексирования документов MS Office XP-2003 вы можете использовать
IFilter
s, встроенные в ОС (при условии, что вы используете Windows Server 2003 или более новую версию)
- Для индексации документов MS Office 2007-2010 вам потребуется установить Пакеты фильтров Microsoft Office 2010
- Для индексации документов PDF я настоятельно рекомендую использовать Foxit PDF IFilter . Это не бесплатно, но делает намного лучше, чем Adobe PDF IFilter.
Примечание: Не тратьте свое время на Adobe PDF IFilter: он не может прочитать действительные файлы PDF и на намного медленнее. Foxit IFilter разработан для использования преимуществ многоядерных процессоров и намного лучше работает с большими документами.