На самом деле написание масштабируемого сканера является довольно сложной задачей. Я реализовал один на работе и поддерживал его довольно долго. Существует много проблем, о которых вы не знаете, пока они не напишут и не решат проблемы. В особенности это касается CDN и дружественного сканирования сайтов. Адаптивные алгоритмы очень важны, иначе вы отключите DOS-фильтры. На самом деле вы все равно не узнаете, если ваш обход достаточно большой.
Что нужно подумать:
- Что кроме способной пропускной способности?
- Как вы справляетесь с простоями сайта?
- Что произойдет, если вы заблокированы?
- Хотите ли вы заниматься скрытным ползанием (спорным и на самом деле довольно трудным для понимания)?
Я на самом деле написал кое-что, что, если я когда-нибудь об этом узнаю, я мог бы выложить в Интернете информацию о конструкции гусеничной машины, поскольку построить правильную конструкцию гораздо сложнее, чем вам скажут люди. Большинство сканеров с открытым исходным кодом работают достаточно хорошо для большинства людей, поэтому, если вы можете, я рекомендую вам использовать один из них. Какой вариант / выбор платформы.