Использование wget и cron для загрузки веб-страниц - PullRequest
0 голосов
/ 18 ноября 2010

Хорошо, я знаю, что могу использовать:

wget -r <website> > <file>

, чтобы получить веб-страницу и сохранить ее.У меня вопрос: как бы я использовал cron и wget, чтобы получать веб-страницу ежечасно или даже ежечасно, а затем сохранять их в папке, архивировать и архивировать, а затем добавлять к ней для последующего просмотра?.

Я знаю, что могу сделать это вручную, моя цель - в основном загружать его каждые 10-20 минут, в течение примерно 4 часов (не важно, будет ли он дольше) и добавить все в хороший каталог., затем заархивируйте указанный каталог для экономии места и проверьте его позже в тот же день.

Ответы [ 2 ]

2 голосов
/ 18 ноября 2010

Для редактирования таблицы cron

crontab -e

Вы можете добавить запись, подобную этой

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

Для загрузки / сохранения файла каждые 20 минут.

Здесь небольшая ссылка о выражениях crontab, так что вы можете настроить значения

Для TAR-файлов crontab будет немного сложным:

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`

Это может сделать это в полдень, если вы хотите сделать это в течение полуночи, это будет более сложно, потому что вам нужно TAR накануне, но я думаю, что с этим вы поймете идею.

1 голос
/ 18 ноября 2010

Или без cron:

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done

10 раз, каждые 10 минут

РЕДАКТИРОВАТЬ: Используйте zip как это

zip foo.zip file1 file2 allfile*.html
...