Искусство очистки веб-страницы заключается в определении того, какие параметры со страницы используются для создания данного ответа, поиска их в исходном исходном тексте страницы и последующего просмотра каждой доступной комбинации этих параметров. Возможно, вам не нужна переменная сеанса как таковая, потому что большинство сайтов откажутся от старых сеансов через определенное время, но вы хотите иметь возможность создать строку поиска, которая будет перенаправлена на соответствующую страницу результатов или просто прямой URL-адрес для страница результатов, о которой идет речь.
Я ожидаю, что мне понадобится какая-то конфигурация для каждого отдельного сайта, с которого вы хотите очистить данные, поскольку все они будут различаться по дизайну и именам параметров. Некоторые могут предложить партнерский веб-сервис, чтобы облегчить вашу работу, и его стоит по возможности использовать, поскольку он может быть более надежным и менее подверженным изменениям в дизайне сайта.
Даже с такими инструментами, как Mechanize, как упомянуто выше, ожидайте, что вам понадобится довольно грязная ручная конфигурация, чтобы все работало хорошо, поскольку многие сайты, с которыми вы работаете, вряд ли будут иметь лучший html и дизайн, и хороший шанс того, что вам придется искать ссылки javascript или ajax по всему месту.