Информация о методах веб-сканирования - PullRequest
2 голосов
/ 18 мая 2009

Я создаю небольшой веб-сканер, и мне интересно, есть ли у кого-нибудь интересная информация о фактической реализации (просто сканирование, отсутствие поиска, рейтинг, классификация, просто сканирование, поцелуй:).

Для справки, у меня уже есть O'Reilly "Хаки Spidering" и No Starch Press "Веб-боты, пауки и скребки экрана". Эти книги превосходны, но, как правило, они просты и мало занимаются масштабированием, хранением данных, параллельными вещами и другими более сложными темами. Конечно, я мог бы пересмотреть код существующего сканера с открытым исходным кодом, но это могло бы произойти с другой стороны (сканеры C ++ кажутся сложными ...). Я ищу некоторую интересную / дополнительную информацию.

Любая помощь приветствуется, заранее спасибо.

1 Ответ

2 голосов
/ 03 июня 2009

Если вы заинтересованы в деталях реализации веб-сканера, вы можете изучить существующие реализации с открытым исходным кодом. Вот список сканеров с открытым исходным кодом в Java . Большинство из этих проектов неактивны. Но сканер Интернет-архива Heritix и Apache Nutch являются зрелыми активными проектами, у которых есть чему поучиться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...