Как нам создать простую поисковую систему, используя Lucene, Solr или Nutch? - PullRequest
8 голосов
/ 22 октября 2008

Наша компания имеет тысячи документов в формате PDF. Как нам создать простую поисковую систему, используя Lucene, Solr или Nutch? Мы предоставим базовую веб-страницу на Java / JSP, где люди могут вводить слова и выполнять базовые и / или запросы, а затем показывать им ссылки на документы всех соответствующих PDF-файлов.

Ответы [ 10 ]

8 голосов
/ 22 октября 2008

Мне повезло с lucene, но это не щелчок, установка и поиск, это требует немного работы.
Если вам нужно что-то, что вы можете загрузить, установить и выполнить поиск в течение 10 минут, посмотрите на бесплатную версию Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/,, в которой используется Lucene, но она упакована таким образом, что она настроена и готова к работе после установки гораздо более простой способ попробовать Lucene.

7 голосов
/ 12 июня 2009

Плагин Nutch + Lucene + Pdf в Nutch - это ваше решение. Nutch позволяет вам анализировать PDF, включив плагин PDF.

Lucene позволит вам индексировать просканированные и проанализированные данные, а в Nutch есть сервлет, который предоставляет вам интерфейс поиска.

Мы используем то же самое для наших внутренних сетей.

3 голосов
/ 17 декабря 2008

Я думаю, вы хотите, чтобы система управляла вашим файлом PDF. Пожалуйста, попробуйте использовать систему dspace. Dspace - это цифровая библиотека, на основе которой поддерживается Lucene. www.dspace.org.

3 голосов
/ 17 декабря 2008

Ни один из проектов в семействе Lucene не может обрабатывать PDF-файлы, но есть полезные утилиты и хорошо написанные примеры того, как создавать свои собственные.

Lucene будет делать практически все, что вам нужно, но с точки зрения вашего времени, как сказал Тони, это накладные расходы. Тысячи документов на самом деле не это много, так что вы могли бы уйти с более легкой альтернативой.

Тем не менее, я все равно рекомендую взглянуть на Solr - его гораздо, гораздо проще настроить, чем Lucene, имеет поддержку резервного копирования, репликации и т. Д., А также отличный интерфейс JSON, который очень хорошо подходит для вашего варианта использования. : http://wiki.apache.org/solr/SolJSON

3 голосов
/ 22 октября 2008

Google Search Appliance http://www.google.com/enterprise/gsa/

2 голосов
/ 22 октября 2008

Взгляните на eprints . Он включает в себя рабочий процесс для добавления новых документов, автоматически индексирует и миниатюры PDF-файлов и имеет довольно полные функции полнотекстового поиска. Он также может быть легко настроен и маркирован.

Зачем заново изобретать колесо. Опять же.

1 голос
/ 24 августа 2009

Отличной бесплатной технологией поиска является IBM Yahoo! бесплатный поиск. Я не уверен, выполнили ли они планы по использованию Lucene под прикрытием, но он по-прежнему остается одним из самых замечательных способов использования бесплатных технологий поиска. Я считаю, что он обрабатывает до 500 тыс. Документов, а также поддерживает PDF и другие нетекстовые форматы. Графический пользовательский интерфейс; легко настроить результаты поиска и базовую аналитику поиска. Базовый тезаурус и мощный API, так что вы можете делать практически все, что хотите, если результаты из коробки вам не по вкусу. Мы предложили это ряду клиентов, у которых было менее полумиллиона документов, и им это нравится.

1 голос
/ 22 октября 2008

Ответить на такой широкий вопрос на этом форуме будет сложно. Я бы порекомендовал вам почитать книгу Lucene in Action , , которая охватывает основы индексации и поиска в вполне читабельной форме.

Учитывая ваше приложение, похоже, что Nutch и Solr, вероятно, не понадобятся. Поскольку все ваши документы доступны локально, Nutch, вероятно, не поможет. Solr может помочь вам управлять кластером поисковиков, если у вас высокая нагрузка на запросы, но Lucene обладает высокой производительностью и обрабатывает большие наборы документов очень масштабируемым образом.

Единственная область, которая может потребовать много ваших усилий - это использование PDF. Можно индексировать документы PDF, и есть вклад Lucene для облегчения извлечения необработанного текста из PDF , но в зависимости от документа качество результатов может отличаться. Часто контекст ключевого слова в документе PDF неясен из-за инструкций форматирования, и это может затруднить поиск по близости или показать контекст попадания.

0 голосов
/ 22 октября 2008

Имея (imho) явное преимущество на Mac, я использую SearchLight на несколько более старом G5. приятный веб-интерфейс для внимания, встроенный в Mac OS сервис индексирования.

0 голосов
/ 22 октября 2008

Если у вас есть сервер Linux, вы можете использовать Beagle для их индексации, а затем просто использовать функцию поиска, которая идет с ним. Он имеет (экспериментальный) интерфейс веб-поиска, и его также можно подключить к окну поиска FireFox.

Он автоматически индексирует файлы по мере их включения, и я подозреваю, что вам будет гораздо эффективнее улучшать или исправлять beagle, чем писать свой собственный интерфейс поиска в Lucene.

...