Как я могу использовать wget для сохранения HTML-страниц JavaServer? - PullRequest
0 голосов
/ 26 апреля 2019

http://casesearch.courts.state.md.us/casesearch/inquirySearchParam.jis

Я пытаюсь написать сценарий для очистки списков дел на сайте поиска дел в Мэриленде, где есть списки судебных дел для публичного ознакомления. Это для исследований, и моя цель в конечном итоге создать бесплатный сайт для более удобного поиска дел на основе сборов, результатов и т. Д. Однако возникли некоторые проблемы.

Когда пользователи впервые попадают на сайт, они должны принять отказ от ответственности, прежде чем они смогут получить доступ к любым спискам. Они будут перенаправлены на отказ от ответственности, если они попытаются получить доступ к списку через прямую ссылку.

Попробуйте получить доступ к этой прямой ссылке из нового сеанса, и вы поймете, что я имею в виду.

http://casesearch.courts.state.md.us/casesearch/inquiryDetail.jis?caseId=C02CV19000081&loc=60&detailLoc=ODYCIVIL

Если я просто получу ссылки напрямую, я в конечном итоге сохраню только отказ от ответственности. Я попытался принять заявление об отказе от ответственности в моем браузере, затем сохранить cookie и использовать его в wget, но это тоже не работает. Все еще только перенаправляет и сохраняет отказ от ответственности как jsp

1 Ответ

0 голосов
/ 27 апреля 2019

Потребовалось некоторое тестирование с сервером, чтобы определить, что было нужно. Сервер фактически требует, чтобы вы отправили определенный запрос POST, чтобы получить запись.

Для указанной вами ссылки необходимая команда Wget будет:

wget --method=POST --body-data="locationCode=DC&caseId=C02CV19000081&action=Get+Case"  --page-requisites 'http://casesearch.courts.state.md.us/casesearch/inquiryByCaseNum.jis;jsessionid=<Sess-ID>'

Простая разбивка:

  • --method=POST: отправка HTTP-запроса POST
  • --body-data="...": это тело запроса POST. 3 параметра очевидны
  • --page-requisites: загрузите все необходимые дополнительные страницы. В этом случае будут загружены нужные файлы CSS
  • URL: это URL-адрес страницы. Если вы посмотрите внимательно, это URL-адрес страницы поиска вместе с дополнительным сегментом. Это идентификатор сеанса. Чтобы получить это, примите отказ от ответственности в Firefox, а затем сохраните cookie. Значением cookie является идентификатор сеанса. Добавьте его к URL.
...