Настройка скрипта Perl для автоматической генерации XML-карты сайта для очень большого сайта - PullRequest
1 голос
/ 05 января 2011

Я SEO, работаю в компании по бронированию авиабилетов.Мы пытаемся установить карту сайта XML для нашего сайта.Я попросил команду разработчиков моей компании установить Perl-скрипт, который поможет сгенерировать карту сайта XML для нашего огромного сайта (более 150 тыс. Страниц).

Мы использовали Google Perl Sitemap Generator по той же причине, что и по ряду причин мы можем использовать только Perl.У выходного файла было много дерьма, поскольку он в основном сканировал статические страницы и другой контент в папках сервера (в основном он не следовал за URL-адресами с домашней страницы и вниз по сайту, а сканировал каждый файл на сервере).Я не уверен, что терминология верна, но я думаю, вы поймете мою точку зрения.

Параметры конфигурации упомянуты в ссылке выше, однако мы не можем выяснить, какие параметры использовать для получения идеальногоКарта сайта XML без лишних URL.

Может кто-нибудь помочь с сценарием Perl или как его настроить.

Ответы [ 3 ]

0 голосов
/ 16 марта 2011

Посмотрите здесь, он имеет код: http://www.isrcomputing.com/knowledge-base/linux-tips/240-how-to-create-google-sitemap- using-perl.html

0 голосов
/ 16 марта 2011

Возможно, я наивен, но не могли бы вы сделать BFS 'http :: get' для всех ссылок, начиная с корня, разбирая каждую a href?

Perl поддерживает это довольно хорошо.

0 голосов
/ 25 января 2011

Сделайте копию сайта с помощью wget (зеркальная опция) и создайте карту сайта из этого.

...