Создание веб-индексатора в Java? - PullRequest
0 голосов
/ 02 декабря 2009

Я должен написать веб-сканер на Java. Сканирующая часть проста, но индексирующая часть сложна. Мне нужно иметь возможность запросить индексатор и сделать так, чтобы он возвращал совпадения (запросы из нескольких слов). Какова была бы лучшая структура данных для такой вещи?

Ответы [ 3 ]

1 голос
/ 02 декабря 2009

Используйте инструмент индексирования, такой как Lucene , Solr или Компас .

1 голос
/ 02 декабря 2009

Решением шага индексации и поиска является использование структуры данных с инвертированным индексом , и наилучший доступный пакет с открытым исходным кодом, реализующий это для индексации и поиска, - Lucence .

Существуют также проекты с открытым исходным кодом, которые предоставляют комплексное решение для шагов сканирования, индексации и поиска, которые могут представлять интерес, например, Nutch

Эта бесплатная онлайн-книга по поиску информации может вам помочь (см. Главу о построении инвертированного индекса ).

0 голосов
/ 02 декабря 2009

Если вы делаете это с нуля, вы должны взглянуть на инвертированный индекс структуру данных. Если вы можете использовать один с полки, посмотрите на проект Nutch .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...