У меня есть приложение, в которое должны быть загружены файлы .doc. Затем эти документы должны быть проиндексированы, и вся коллекция документов должна быть доступна для поиска. Это будет работать на Windows Server без установленного Word, с использованием IIS и SqlServer, но я бы не хотел быть привязанным к полнотекстовой индексации SqlServer.
Я думал о том, чтобы использовать Lucene.Net для индексирования, и мне было интересно, как лучше всего получить текст из файлов .doc. Я мог бы, вероятно, извлечь текст, читая весь поток, а затем используя regEx для извлечения любых обычных символов, но это кажется здоровенным и подверженным ошибкам.
Я видел статью об использовании iFilters, которая звучит многообещающе, но я подумал, что выложу это, поскольку я не знаком с этим.
P.S. Если это имеет значение, в этих файлах .doc будут присутствовать поля слияния, и в настоящее время нет другой альтернативы для формата .doc.