Очистите веб-сайт после отправки формы и загрузки данных - PullRequest
0 голосов
/ 12 июля 2020

Мне нужно очистить веб-сайт, который я просмотрел и понял, что мне не нужно отправлять какую-либо форму. У меня есть URL-адреса, необходимые для получения данных. Я использую NodeJs и Phantom .

Источник моих проблем связан с сеансом или файлами cookie (я думаю).

В моем веб-браузере я могу ввести по этой ссылке https://www.infosubvenciones.es/bdnstrans/GE/es/convocatorias, нажав синюю кнопку формы с текстом «Procesar consulta». Таблица ниже будет заполнена. В инструментах разработчика на вкладке сети вы можете увидеть запрос XHR со ссылкой, похожей на https://www.infosubvenciones.es/bdnstrans/busqueda?type=convs&_search=false&nd=1594848133517&rows=50&page=1&sidx=4&sord=desc, если вы откроете его в новой вкладке, данные отображаются. Но если вы откроете эту ссылку в другом веб-браузере, вы получите 0 результатов.

Это именно то, что происходит со мной с NodeJs и Phantom, и я не знаю, как это исправить.

1 Ответ

0 голосов
/ 15 июля 2020

Если вы хотите попробовать Scrapy, https://docs.scrapy.org/en/latest/topics/dynamic-content.html объясняет, как бороться с этим типом сценария ios, и я бы посоветовал прочитать его после завершения обучения.

Эта страница также может быть удобна, если вы используете другой фреймворк для парсинга, поскольку там не так много специфичных для Scrapy c, а для материала Python -specifi c я уверен, что будут JavaScript аналоги.

Что касается Cheerio и Phantom, я с ними не знаком, но, скорее всего, с ними тоже справиться.

Это выполнимо с любым веб-клиентом, это просто вопрос знания как использовать инструмент для этой цели. Большая часть работы связана с использованием инструментов вашего веб-браузера, чтобы понять, как веб-сайт работает под ним.

...