Я ищу способ псевдо-паука на сайте. Ключевым моментом является то, что я на самом деле не хочу контент, а просто простой список URI. Я могу достаточно близко подойти к этой идее с помощью Wget , используя опцию --spider
, но при передаче этого вывода через grep
я не могу найти правильную магию, чтобы она работала: 1005 *
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
Фильтр grep
, похоже, абсолютно не влияет на вывод wget
. У меня что-то не так или есть другой инструмент, который я должен попробовать, который больше ориентирован на предоставление такого ограниченного набора результатов?
UPDATE
Итак, в автономном режиме я обнаружил, что по умолчанию wget
пишет в stderr. Я пропустил это на страницах руководства (фактически, я все еще не нашел это, если это там). Как только я отправил возврат в stdout, я приблизился к тому, что мне нужно:
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
Я бы по-прежнему интересовался другими / лучшими средствами для такого рода вещей, если таковые существуют.