Вы уверены, что вам разрешено очищать сайт?
Если да, то они могли бы просто дать вам простой REST API?
В редких случаях, когда они позволили бы вам получить доступ к данным, но не предоставили бы API, я бы посоветовал установить некоторое программное обеспечение для записи вашего взаимодействия HTTP с веб-сайтом, например, wireshark, или какой-нибудь HTTP-прокси, но это Важно, чтобы вы получили все детали HTTP-запросов, записанных. После того, как у вас это получится, проанализируйте его и попробуйте воспроизвести до последнего бита.
Среди возможных дел может оказаться, что в какой-то момент времени сервер отправит вам сгенерированный javascript, который должен быть выполнен клиентским браузером, чтобы перейти к следующему шагу. В этом случае вам нужно будет разобраться, как разобрать полученный JavaScript, и выяснить, как двигаться дальше.
Также хорошей идеей было бы не запускать все ваши http-запросы в пакетном режиме, поместите несколько случайных задержек, чтобы сервер казался более «человеческим».
Но, в конце концов, вам нужно выяснить, стоит ли все это того? Поскольку практически любой препятствие на пути к соскобу можно обойти, но это может оказаться довольно сложным и трудоемким процессом.