Как соскрести изображения с этого сайта Javascript? - PullRequest
1 голос
/ 10 декабря 2010

текст ссылки

Это ссылка из библиотеки цифровых книг. Для перехода на следующую и предыдущую страницы есть кнопки «вперед» и «назад».Я когда-то использовал urllib в python, но сайт вскоре забанил его.Я просто хочу скачать эту книгу для учебы, поэтому кто-нибудь может порекомендовать мне некоторые инструменты программирования, такие как веб-пауки, которые могут моделировать процесс перелистывания страниц и автоматически получать изображения.Спасибо!

Ответы [ 3 ]

0 голосов
/ 10 декабря 2010

Этот сайт использует Javascript, поэтому вы не можете легко обработать его с помощью Python.Два предложения:

  1. Определите, какие запросы выполняются при нажатии следующей кнопки.Вы можете сделать это с помощью такого инструмента, как firebug.Затем вы можете обнаружить, что можете очистить его, не обрабатывая JS.

  2. Используйте такой инструмент, как Selenium , который позволяет создавать сценарии в браузере, который позволяет вам «выполнять» JS.

Что касается сайта, блокирующего вас, есть два способа уменьшить вероятность блокировки:

  1. Измените ваш пользовательский агент надля обычного браузера, например Firefox.

  2. Добавьте случайные задержки между доступом к следующему изображению, чтобы вы выглядели более похожими на людей.

0 голосов
/ 12 декабря 2010

Вам нужен настоящий браузер для работы с этим (своего рода) сайтом. Selenium - один из вариантов, но он больше ориентирован на веб-тестирование. Для просмотра веб-страниц iMacros действительно хорош. У меня был быстрый тест, и он хорошо работает с iMacros для Firefox / IE.

Chris

0 голосов
/ 10 декабря 2010

Wget - отличный веб-паук

http://linux.die.net/man/1/wget

...