Как удалить веб-страницу с HTTP-запросом, который не работает после модификации и восстановления? - PullRequest
0 голосов
/ 26 мая 2020

https://psycnet.apa.org/record/2010-22619-002

Эту страницу очень сложно выбросить. Если я использую chrome devtools для определения необработанного HTTP-запроса, я могу использовать curl (используя некоторую команду, подобную следующей) для загрузки. Но как только я начинаю изменять команду curl, она перестает работать. Это не сработает, даже если я верну команду к исходной. Из-за этого очень сложно понять, что важно в команде. И почему локон не работает постоянно?

1007 * Кто-нибудь знает, что происходит? И как в этом случае очистить веб-страницу? Спасибо.
curl 'https://psycnet.apa.org/record/2010-22619-002' \
-XGET \
-H 'Cookie: PN_ACCESSTIME=1590443949351; D_HID=B2D7CBC8-9F78-3FF8-AF85-DBCA2549B75C; D_IID=6B45E04A-C23B-396B-BDA5-2278E4DC69CF; D_UID=2C3DC3A0-B486-3D0E-82B0-EFD89851CC75; D_ZID=B3CD9409-DCFA-39F9-8652-3F5AA1F661D8; D_ZUID=B2082E64-CC85-303A-98CA-CDB24B2136AC; ERIGHTS=9A7oTmdcDdNOOLQMkNE8KlCjLviB8Xi3-18x2dZGD2l5wwGgbsoix2BefrHXeAx3Dx3Dbxxx2FXl26couzYEndq9u24Mgx3Dx3D-MBjPj5HMO68xxf2gzQu6x2BXAx3Dx3D-jtx2Bu62wmWz8dEf2Tx2F743Xwx3Dx3D; currency=USD; defaultLocale=en-US; REFRESH_SESSION=false; PN_HOST=https%3A%2F%2Fpsycnet.apa.org; PN_MY=https%3A%2F%2Fmy.apa.org; PN_RC=false; connect.sid=s%3AIQ8oE9IASAXKwd6fs8kA9fX5R1ZT23ha.kGTspyZebDpWFIJWOunkfoKjp%2BmZlbi9QLoUwsPhlpM; D_SID=128.194.2.118:ECe+lQDTjpdBqy5goEKecyo/42Mjgbyb/Kki+4UTgVc; _ga=GA1.2.1866629999.1579333247' \
-H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' \
-H 'Accept-Encoding: br, gzip, deflate' \
-H 'Host: psycnet.apa.org' \
-H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.1 Safari/605.1.15' \
-H 'Accept-Language: en-us' \
-H 'Referer: https://psycnet.apa.org/record/2010-22619-002' \
-H 'Connection: keep-alive'

1 Ответ

0 голосов
/ 26 мая 2020

Посмотрев на заголовки ответов, вы увидите следующее:

X-Distil-CS: MISS

Distil Networks (теперь Imperva) - это решение для управления ботами. Ваши шансы на успешное сканирование этого сайта очень малы.

...