повторная отправка этого вопроса. Я начал с сканера, но застрял в части индексации. Я хочу эффективный и быстрый способ индексации ссылок. В настоящее время я делаю вставку ссылок в базу данных., но проверка уникальных ссылок является непосильной задачей, поэтому кто-нибудь может предложить мне лучший способ сделать это.
Привет! Я пытаюсь создать сканер веб-сайтов, который будет сканировать весь веб-сайт и получать всессылки внутри него. Что-то очень похожее на "XENU".Но я не могу понять, как это сделать.У меня в голове один алгоритм, но он будет очень медленным, об этом ниже.
- Получить исходную страницу.
- Получить все теги привязки из источника.
- Получить URL-адреса из тега привязки.
- Проверьте, принадлежит ли URL-адрес тому же сайту или внешнему сайту.
- Получите источник для URL-адресов, которые мы нашли в приведенном выше.обработать и пометить эти URL как проверенные.
- Повторяйте процесс до тех пор, пока не останется неразмеченных URL.
Вот несколько грубое представление о том, что я придумал.Но это будет очень медленно.Поэтому любой может предложить мне другой подход или усовершенствовать этот алгоритм.
С уважением, Сагар.