веб-индексатор с использованием Java - PullRequest
2 голосов
/ 01 августа 2010

Является ли параллельная система или распределенная система лучше для сканеров веб-сайтов и веб-индексаторов при разработке на Java?Каковы доступные рамки?

Ответы [ 2 ]

6 голосов
/ 01 августа 2010

Одна из лучших комбинаций сканеров и индексаторов, которую вы когда-либо найдете для Java, - это Nutch , который сейчас является проектом Apache (см. Wiki ) и, следовательно, с открытым исходным кодом.

Особенности:

  1. Параллельная выборка, синтаксический анализ и индексация и / или распределение
  2. Плагины: простой текст, HTML, XML, ZIP, OpenDocument(OpenOffice.org), Microsoft Office (Word, Excel, Powerpoint), PDF, JavaScript, RSS, RTF, MP3 (теги ID3)
  3. Онтология
  4. Кластеризация
  5. MapReduce
  6. Распределенная файловая система (через Hadoop)
  7. База данных графов ссылок
  8. NTLM-аутентификация (Windows / Exchange / и т. Д.)
1 голос
/ 01 августа 2010

Натч непобедим. Еще одна более простая библиотека, которую я успешно использовал в проектах, это https://crawler.dev.java.net/..

...