Я создаю небольшой веб-сканер, и мне интересно, есть ли у кого-нибудь интересная информация о фактической реализации (просто сканирование, отсутствие поиска, рейтинг, классификация, просто сканирование, поцелуй:).
Для справки, у меня уже есть O'Reilly "Хаки Spidering" и No Starch Press "Веб-боты, пауки и скребки экрана". Эти книги превосходны, но, как правило, они просты и мало занимаются масштабированием, хранением данных, параллельными вещами и другими более сложными темами. Конечно, я мог бы пересмотреть код существующего сканера с открытым исходным кодом, но это могло бы произойти с другой стороны (сканеры C ++ кажутся сложными ...). Я ищу некоторую интересную / дополнительную информацию.
Любая помощь приветствуется, заранее спасибо.