Да, теоретически возможно выполнить «очистку веб-страниц» (т.е. анализ веб-страниц) на клиенте. Однако существует несколько ограничений, и я хотел бы спросить, почему вы не выбрали бы программу, которая запускается на сервере или рабочем столе.
Веб-работники могут запрашивать контент HTML с помощью XMLHttpRequest, а затем анализировать входящий XML программным способом. Обратите внимание, что целевая веб-страница должна отправлять соответствующие заголовки CORS, если она принадлежит чужому домену. Затем вы можете выбрать контент из полученного HTML.
Анализ содержимого, созданного с помощью CSS и JavaScript, будет сложнее. Вам нужно будет либо создать содержимое изолированной программной среды на странице вашего хоста из входного потока, либо запустить какой-то синтаксический анализатор, что не представляется возможным.
Короче говоря, ответ на ваш вопрос - да, потому что у вас есть инструменты для выполнения сетевого запроса и полный язык Тьюринга, с помощью которого можно создавать любые виды анализа и очистки, которые вам нужны. Технически все возможно возможно .
Но реальный вопрос: будет ли это мудрым? Вы когда-нибудь выбрали бы этот подход, когда другие технологии под рукой? Ну нет. В большинстве случаев я не понимаю, почему вы не просто написали бы программу на стороне сервера, используя, например, Chrome без головы.
Если вы не хотите использовать Node - или по какой-то причине не можете развернуть Node - существует множество пакетов соскребания через Интернет и предшествующий уровень техники на таких языках, как Go, C, Java и Python. Найдите менеджер пакетов на предпочитаемом вами языке программирования, и вы, вероятно, найдете несколько.