Поиск по тексту в документах PDF или Word - PullRequest
3 голосов
/ 05 июля 2011

Я хочу выяснить, можно ли настроить поисковую систему Lucne для Sitecore для индексации документов PDF или Word?Я посмотрел на сайте поддержки Sitecore этот документ (http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf), но в нем упоминается создание класса искателя файлов, который подсказывает мне, что достичь этого можно только написав собственный код. Если я do Для этого нужно написать собственный код. Нужно ли мне иметь API для извлечения текстового содержимого из документов PDF?

1 Ответ

3 голосов
/ 05 июля 2011

Мне недавно пришлось сделать нечто похожее на одном из моих проектов. Посмотрите Как индексировать документы Word 2003, 2007 и 2010 с помощью Lucene.NET .

В итоге я создал собственный индексатор, который обрабатывал документы MS Office (формат XP, 2003, 2007 и 2010) и документы PDF:

  • Для индексирования документов MS Office XP-2003 вы можете использовать IFilter s, встроенные в ОС (при условии, что вы используете Windows Server 2003 или более новую версию)
  • Для индексации документов MS Office 2007-2010 вам потребуется установить Пакеты фильтров Microsoft Office 2010
  • Для индексации документов PDF я настоятельно рекомендую использовать Foxit PDF IFilter . Это не бесплатно, но делает намного лучше, чем Adobe PDF IFilter.

Примечание: Не тратьте свое время на Adobe PDF IFilter: он не может прочитать действительные файлы PDF и на намного медленнее. Foxit IFilter разработан для использования преимуществ многоядерных процессоров и намного лучше работает с большими документами.

...