Могу ли я использовать WGET для создания карты сайта с учетом его URL? - PullRequest
8 голосов
/ 16 октября 2010

Мне нужен скрипт, который может сделать паук на сайте и вернуть список всех просканированных страниц в текстовом или аналогичном форматекоторый я представлю поисковым системам как карту сайта.Могу ли я использовать WGET для создания карты сайта?Или есть сценарий PHP, который может сделать то же самое?

Ответы [ 2 ]

31 голосов
/ 19 июля 2011
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

Это создает файл с именем sedlog.txt, который содержит все ссылки, найденные на указанном веб-сайте. Вы можете использовать PHP или скрипт оболочки, чтобы преобразовать карту сайта с текстовым файлом в карту сайта XML. Настройте параметры команды wget (принять / отклонить / включить / исключить), чтобы получить только нужные вам ссылки.

1 голос
/ 16 октября 2010

Вы можете использовать этот скрипт на Perl, чтобы добиться цели: http://code.google.com/p/perlsitemapgenerator/

...