Wget WIKI, не получать страницы различий (исключить с помощью регулярных выражений?) - PullRequest
5 голосов
/ 01 июня 2009

Я пытаюсь загрузить статическое зеркало вики с помощью wget. Я хочу только последнюю версию каждой статьи (не полная история или различия между версиями). Было бы легко просто загрузить все и удалить ненужные страницы позже, но это заняло бы слишком много времени и привело бы к ненужной нагрузке на сервер.

Есть ряд страниц, которые мне явно не нужны, например:

WhoIsDoingWhat? Действие = дифф и дата = 1184177979

Есть ли способ запретить wget скачивать и рекурсировать по URL, в которых есть 'action = diff'? Или иначе исключить URL, которые соответствуют некоторому регулярному выражению?

1 Ответ

3 голосов
/ 01 июня 2009
-R '*action=diff*,*action=edit*'
...