Я написал очень простой сканер, который собирает информацию о продуктах с веб-сайтов и помещает их в базу данных.
Все это работает хорошо, за исключением того, что некоторые сайты имеют отдельный URL для нескольких частей страницы.Например, URL продукта может быть:
http://www.example.com/product?id=52
, тогда он может иметь другой URL для других частей, таких как комментарии и т. Д .:
http://www.example.com/product?id=52&revpage=1
Мой сканер видит это как отдельноеURL.Я нашел несколько сайтов, где один продукт имеет сотни различных URL.Я уже добавил логику, чтобы игнорировать что-либо после хэша в URL, чтобы избежать привязки, но мне было интересно, есть ли у кого-нибудь предложения, чтобы избежать этой проблемы?Там может быть простое решение, которое я не вижу.
В настоящее время он замедляет процесс сканирования / сканирования, когда у сайта может быть только 100 продуктов, добавляя тысячи URL.
Я думал оигнорирование строки запроса или даже определенных частей строки запроса, но идентификатор продукта обычно находится в строке запроса, поэтому я не мог найти выход без написания исключения для структуры URL каждого сайта