Question

Я создаю небольшой веб-сканер, и мне интересно, есть ли у кого-нибудь интересная информация о фактической реализации (просто сканирование, отсутствие поиска, рейтинг, классификация, просто сканирование, поцелуй:).

Для справки, у меня уже есть O'Reilly "Хаки Spidering" и No Starch Press "Веб-боты, пауки и скребки экрана". Эти книги превосходны, но, как правило, они просты и мало занимаются масштабированием, хранением данных, параллельными вещами и другими более сложными темами. Конечно, я мог бы пересмотреть код существующего сканера с открытым исходным кодом, но это могло бы произойти с другой стороны (сканеры C ++ кажутся сложными ...). Я ищу некоторую интересную / дополнительную информацию.

Любая помощь приветствуется, заранее спасибо.

Palimondo · Answer 1 · 03 июня 2009

Если вы заинтересованы в деталях реализации веб-сканера, вы можете изучить существующие реализации с открытым исходным кодом. Вот список сканеров с открытым исходным кодом в Java . Большинство из этих проектов неактивны. Но сканер Интернет-архива Heritix и Apache Nutch являются зрелыми активными проектами, у которых есть чему поучиться.

Информация о методах веб-сканирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Информация о методах веб-сканирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов