Я хочу разработать простой веб-сканер, захватывать страницы с нескольких веб-сайтов и поддерживать их в актуальном состоянии.Некоторые из этих сайтов имеют идентификаторы сеансов в каждой ссылке, они вообще не хранят идентификаторы сессии в файлах cookie.Итак, если я буду анализировать сайт несколько раз - моя таблица синтаксического анализа будет содержать дублирующие страницы с разницей только в идентификаторе сеанса.
Поэтому мой вопрос: как я могу удалить идентификатор сеанса из всех ссылок, есть ли какая-то разумная идея?Я занимаюсь разработкой на php , но все другие платформы будут полезны, даже на словах.