Гусеничный / парсер для Xapian - PullRequest
2 голосов
/ 02 декабря 2008

Я хотел бы реализовать поисковую систему, которая должна сканировать набор веб-сайтов, извлекать конкретную информацию со страниц и создавать полнотекстовый индекс этой конкретной информации.

Мне кажется, что Xapian может быть хорошим выбором для библиотеки поисковых систем.

Какие есть варианты интеграции сканера / сканера с Xapian?

Будет ли Solr лучшим выбором, чем Xapian, интегрироваться с сканерами / анализаторами с открытым исходным кодом?

Ответы [ 2 ]

2 голосов
/ 21 апреля 2009

Лен может предоставить то, что вы ищете.

2 голосов
/ 19 декабря 2008

Вот небольшое сравнение между Xapian и Solr.

Но если вы хотите построить гусеничный ход, взгляните на Nutch . Он расширяемый с помощью плагинов , поэтому вы можете написать плагин, который анализирует информацию, которую вы ищете.

...