Question

Наша компания имеет тысячи документов в формате PDF. Как нам создать простую поисковую систему, используя Lucene, Solr или Nutch? Мы предоставим базовую веб-страницу на Java / JSP, где люди могут вводить слова и выполнять базовые и / или запросы, а затем показывать им ссылки на документы всех соответствующих PDF-файлов.

Tony BenBrahim · Answer 1 · 22 октября 2008

Мне повезло с lucene, но это не щелчок, установка и поиск, это требует немного работы.
Если вам нужно что-то, что вы можете загрузить, установить и выполнить поиск в течение 10 минут, посмотрите на бесплатную версию Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/,, в которой используется Lucene, но она упакована таким образом, что она настроена и готова к работе после установки гораздо более простой способ попробовать Lucene.

Sumit Ghosh · Answer 2 · 12 июня 2009

Плагин Nutch + Lucene + Pdf в Nutch - это ваше решение. Nutch позволяет вам анализировать PDF, включив плагин PDF.

Lucene позволит вам индексировать просканированные и проанализированные данные, а в Nutch есть сервлет, который предоставляет вам интерфейс поиска.

Мы используем то же самое для наших внутренних сетей.

Miguel A. Friginal · Answer 3 · 17 декабря 2008

Я думаю, вы хотите, чтобы система управляла вашим файлом PDF. Пожалуйста, попробуйте использовать систему dspace. Dspace - это цифровая библиотека, на основе которой поддерживается Lucene. www.dspace.org.

James Brady · Answer 4 · 17 декабря 2008

Ни один из проектов в семействе Lucene не может обрабатывать PDF-файлы, но есть полезные утилиты и хорошо написанные примеры того, как создавать свои собственные.

Lucene будет делать практически все, что вам нужно, но с точки зрения вашего времени, как сказал Тони, это накладные расходы. Тысячи документов на самом деле не это много, так что вы могли бы уйти с более легкой альтернативой.

Тем не менее, я все равно рекомендую взглянуть на Solr - его гораздо, гораздо проще настроить, чем Lucene, имеет поддержку резервного копирования, репликации и т. Д., А также отличный интерфейс JSON, который очень хорошо подходит для вашего варианта использования. : http://wiki.apache.org/solr/SolJSON

Guy · Answer 5 · 22 октября 2008

Взгляните на eprints . Он включает в себя рабочий процесс для добавления новых документов, автоматически индексирует и миниатюры PDF-файлов и имеет довольно полные функции полнотекстового поиска. Он также может быть легко настроен и маркирован.

Зачем заново изобретать колесо. Опять же.

Miguel A. Friginal · Answer 6 · 24 августа 2009

Отличной бесплатной технологией поиска является IBM Yahoo! бесплатный поиск. Я не уверен, выполнили ли они планы по использованию Lucene под прикрытием, но он по-прежнему остается одним из самых замечательных способов использования бесплатных технологий поиска. Я считаю, что он обрабатывает до 500 тыс. Документов, а также поддерживает PDF и другие нетекстовые форматы. Графический пользовательский интерфейс; легко настроить результаты поиска и базовую аналитику поиска. Базовый тезаурус и мощный API, так что вы можете делать практически все, что хотите, если результаты из коробки вам не по вкусу. Мы предложили это ряду клиентов, у которых было менее полумиллиона документов, и им это нравится.

erickson · Answer 7 · 22 октября 2008

Ответить на такой широкий вопрос на этом форуме будет сложно. Я бы порекомендовал вам почитать книгу Lucene in Action , , которая охватывает основы индексации и поиска в вполне читабельной форме.

Учитывая ваше приложение, похоже, что Nutch и Solr, вероятно, не понадобятся. Поскольку все ваши документы доступны локально, Nutch, вероятно, не поможет. Solr может помочь вам управлять кластером поисковиков, если у вас высокая нагрузка на запросы, но Lucene обладает высокой производительностью и обрабатывает большие наборы документов очень масштабируемым образом.

Единственная область, которая может потребовать много ваших усилий - это использование PDF. Можно индексировать документы PDF, и есть вклад Lucene для облегчения извлечения необработанного текста из PDF , но в зависимости от документа качество результатов может отличаться. Часто контекст ключевого слова в документе PDF неясен из-за инструкций форматирования, и это может затруднить поиск по близости или показать контекст попадания.

Kris · Answer 8 · 22 октября 2008

Имея (imho) явное преимущество на Mac, я использую SearchLight на несколько более старом G5. приятный веб-интерфейс для внимания, встроенный в Mac OS сервис индексирования.

Jamie Love · Answer 9 · 22 октября 2008

Если у вас есть сервер Linux, вы можете использовать Beagle для их индексации, а затем просто использовать функцию поиска, которая идет с ним. Он имеет (экспериментальный) интерфейс веб-поиска, и его также можно подключить к окну поиска FireFox.

Он автоматически индексирует файлы по мере их включения, и я подозреваю, что вам будет гораздо эффективнее улучшать или исправлять beagle, чем писать свой собственный интерфейс поиска в Lucene.

Как нам создать простую поисковую систему, используя Lucene, Solr или Nutch?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как нам создать простую поисковую систему, используя Lucene, Solr или Nutch?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы