Я хочу создать веб-сканер, который будет случайным образом перемещаться по Интернету и помещать испорченные (http statuscode 4xx) ссылки на изображения в базу данных.
До сих пор я успешно собирал скребок, используя пакеты узлов request
иcheerio
.Я понимаю, что ограничения - это сайты, которые динамически создают контент, поэтому я думаю переключиться на puppeteer
.Было бы неплохо сделать это как можно быстрее, но это необязательно, так как сервер должен работать неопределенно долго.
Мой самый большой вопрос: с чего начать ползать?
Я хочу, чтобы сканер рекурсивно находил случайные веб-страницы, которые, вероятно, содержат контент и могут иметь неработающие ссылки.Может ли кто-нибудь помочь найти разумный подход к этой проблеме?