Lucene .NET Azure Blob для хранения и IFilter - PullRequest
3 голосов
/ 23 августа 2011

Как лучше всего использовать IFilter для извлечения текстового содержимого из pdf / word / чего-либо другого в решении Azure?

Я видел примеры IFilter, использующие поток, но какой контентиз потока быть?Должно ли оно содержать какие-либо заголовки OLE, а что нет?

Отправка необработанного содержимого файла в виде потока в IFilter, похоже, не работает.

Или лучше сохранить файлы в локальномфайловое хранилище и позволить IFilter читать их из этого места?

1 Ответ

1 голос
/ 11 октября 2012

Использование ifilter в Azure будет непростым делом, поскольку некоторые из распространенных на настольном компьютере ifilter недоступны в роли веб-пользователя Azure.

Вы можете создать в Azure надежную виртуальную машину и установить недостающие фильтры ifilter.

Однако, если вы собираетесь создать свой индекс lucene через веб-загрузку, вы можете просто обработать файлы в текст по мере их загрузки, а затем проиндексировать текст и сохранить файл отдельно. Добавьте в свой индекс поле, которое позволит вам вернуться к исходному документу.

Возможно, это будет проще, но я решил ту же проблему.

...