Странная загрузка веб-страницы с использованием wget и curl - PullRequest
0 голосов
/ 09 сентября 2010

Я пытаюсь загрузить некоторые удаленные страницы.В исходном коде есть очень длинная строка.Как curl, так и wget скачивают файл, но решили пропустить эту строку.Есть ли другая утилита командной строки, которую я могу использовать, и / или кто-нибудь знает, как я могу решить эту проблему.

Редактировать: Могу ли я уточнить, я пробовал с wget и curl, и оба файла пропускают строку.

Редактировать:

[x@x scripts]$ curl --version
curl 7.15.5 (x86_64-redhat-linux-gnu) libcurl/7.15.5 OpenSSL/0.9.8b zlib/1.2.3 libidn/0.6.5
Protocols: tftp ftp telnet dict ldap http file https ftps 
Features: GSS-Negotiate IDN IPv6 Largefile NTLM SSL libz 
[x@x scripts]$ wget --version
GNU Wget 1.11.4 Red Hat modified

Copyright (C) 2008 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later
<http://www.gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Originally written by Hrvoje Niksic <hniksic@xemacs.org>.
Currently maintained by Micah Cowan <micah@cowan.name>.

Ответы [ 3 ]

1 голос
/ 09 сентября 2010

Существует два вероятных объяснения того, что происходит:

  1. Сервер смотрит на пользовательский агент и решает не включать эту строку.Это менее вероятно из двух, но wget позволяет вам изменять строку пользовательского агента, поэтому вы можете легко ее обойти.
  2. Длинная строка построена на клиенте с использованием JavaScript.Это гораздо более вероятно, но, к сожалению, для вас, нелегко копировать в среде командной строки.

Для проверки используйте инструмент, такой как Fiddler , чтобы посмотреть,на самом деле идет по проводу.

0 голосов
/ 09 сентября 2010

Написать версию wget / curl.Какова длина этой линии?

0 голосов
/ 09 сентября 2010

Почему бы не использовать curl ИЛИ wget? Оба являются отличными инструментами для этого!

...