Хватайте ежедневный комикс и храните его на месте - PullRequest
0 голосов
/ 02 марта 2011

Я хочу скопировать ежедневный комикс с www.explosm.net/comics и сохранить в локальной папке.

Комиксы имеют уникальные имена и хранятся в нескольких местах в зависимости от создателя.

Вот так:

  • www.explosm.net / db / files / Comics / Rob / comic1.png
  • www.explosm.net / db / files / Comics /Dave / comic2.png

Тем не менее, каждый ежедневный комикс доступен по тому же URL-адресу, www.explosm.net/comics, который перенаправляет вас на новейший доступный комикс.Хотя я не уверен, что это пригодится.

Я немного поработал с командой wget вместе с cron, чтобы добиться этого, но отсутствие знаний не дало мне удовлетворительных результатов.

Заранее спасибо.

1 Ответ

0 голосов
/ 02 марта 2011

Возможно, вы захотите посмотреть на cURL . Вам нужен скрипт, который вызывает cURL для получения источника страницы, обслуживаемого сервером, когда вы запрашиваете www.explosm.net/comics. Затем вы проанализируете возвращенные данные в поисках тега img, который отображает комикс.

После того, как у вас есть атрибут src рассматриваемого тега img, вы можете сделать еще один запрос, используя cURL, чтобы фактически загрузить изображение и сохранить возвращенные данные в файл локально.

Похоже, что источник самого комического изображения, которое вы ищете, начинается с http://www.explosm.net/db/files/Comics, так что вы можете использовать регулярное выражение, такое как следующее, чтобы определить URL изображения, которое вы хотите загрузить.

src\=\"(http:\/\/www\.explosm\.net\/db\/files\/Comics\/[^"]*)\"

URL будет первой группой в совпадениях.

...