Очистка веб-страницы, которая требует ввода и повторного ввода в Python - PullRequest
0 голосов
/ 04 ноября 2019

Я пытаюсь очистить веб-сайт, который предоставляет индивидуальный доступ к судебным делам в судах округа Нью-Джерси . У меня много проблем, чтобы понять, с чего начать. Раньше я перебирал довольно много веб-сайтов, но обычно мне удавалось начать с адаптации URL-адреса для прохождения параметров поиска. Однако когда я получаю доступ к этим данным, URL-адрес не меняется, поэтому я немного растерялся.

Кроме того, у меня есть тест, чтобы доказать, что я не робот (который иногда превращается в ReCaptcha).

На сайте, указанном выше, например, входные данныебыло бы:

Case County==Bergen, Docket Type==Landlord Tenant (LT), Docket Number==000001, and Docket Year==19.

Затем я хотел бы иметь возможность извлечь имя ответчика или что-либо из последующей страницы.

Есть ли у кого-нибудь какие-либо советы покак мне поступить с этим?

Заранее спасибо

1 Ответ

0 голосов
/ 05 ноября 2019

Сайты, которые «требуют ввода», могут быть удалены с помощью Selenium, который оценивает javascript: ваш код на python затем выполняет страницу больше как «пользователь» (нажмите здесь, введите там). Это медленно.

В качестве альтернативы, если вы посмотрите на детали страницы, вы можете увидеть, что происходит с вводом, и просто выполнить получающийся URL-адрес GET или POST правильно (например, Forms часто выполняет POST с параметрами: Посмотрите на код и выясните, какие параметры публикуются и по какому URL, а затем в python выполните этот код POST - вам, вероятно, понадобится cookiejar для хранения информации о сеансе.

HOWEVER Как сопровождающий веб-сайт, я советую вам не пытаться очистить этот сайт: он не хочет, чтобы его очищали, а повторные попытки только усиливают защитные действия со стороны владельца веб-сайта. Вы также можете нарушать использованиеполитика, штат и / или федеральные законы.

Вместо этого ищите альтернативный API или альтернативный источник. (Суды Нью-Джерси могут иметь альтернативный API, предназначенный для использования на компьютере: отправьте импо электронной почте!)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...