Обычно это обрабатывается путем очистки страниц с использованием cURL . Если вы последовательно очищаете кучу страниц, я предлагаю использовать семейство функций curl_multi для их параллельного получения. Если вы ищете определенные части страниц, вы можете загрузить HTML-документ в SimpleXMLElement и использовать xpath для запроса конкретных данных.
Единственная проблема, связанная с этим решением, заключается в том, что вы говорите, что вам нужно очистить содержимое AJAX со страницы. cURL взаимодействует только с сервером - он не может запускать JavaScript на стороне клиента. Некоторые приложения AJAX имеют серверный эквивалент содержимого AJAX, которое вы просматриваете (например, http://example.com # test может переводиться в http://example.com/test). Если сайт, с которым вы работаете, не имеет При таком типе сопоставления вы можете попытаться выяснить URL-адреса, с которых загружается содержимое AJAX, и напрямую обработать эти URL-адреса с помощью cURL.
Если вам нужны более продвинутые функции на стороне клиента, обратите внимание на Selenium . Если вы заглянете в «Селен скрин», вы увидите интересных результатов . Я знаю, что в PHPUnit есть интеграция Selenium, на которую стоит взглянуть.
Вот еще один вопрос, касающийся очистки страниц AJAX: Как вы обрабатываете страницы AJAX?