Как использовать Sitemap для веб-сканирования в Java? - PullRequest
0 голосов
/ 15 ноября 2011

Мне нужно разработать сканер, который будет сканировать все ссылки на товары и цены с сайта.Я слышал, что более эффективно и быстро использовать файл Sitemap, который упоминается в файле robots.txt, но я не могу понять, как использовать карту сайта для сканирования.Пожалуйста, кто-нибудь, помогите мне, как использовать Sitemap для сканирования.

Спасибо.

Ответы [ 3 ]

2 голосов
/ 15 ноября 2011

Как вы сказали, вы хотите создать сканер и использовать карту сайта, доступную на robots.txt, тогда вот что вам нужно сделать.

1) На любом сайте будет включен файл robots.txtтам первый уровень сайта.Таким образом, для любого веб-сайта, который вы хотите сканировать, вы можете выполнить синтаксический анализ http://any-websitesite-name.com/robots.txt для Sitemap:. Вы можете написать анализатор на Java. Пример: http://www.javapractices.com/topic/TopicAction.do?Id=87

2) После этого вы получите URL-адрес карты сайта (может быть .xml или .xml.gz)

3) Напишите Java-дайджест для разбора xml.Вот пример: http://devguru.com/features/tutorials/jakarta/jakarta.asp Убедитесь, что вы прочитали тег <loc>..</loc> для любого URL

Примечание: многие веб-сайты не имеют URL карты сайта на robots.txt .. лучше нажать http://website-name/sitemap.xmlкогда его нет в robots.txt.

Надеюсь, это поможет.

0 голосов
/ 15 ноября 2011

robots.txt предоставляет список исключений и используется, чтобы предупредить собирателя о том, что исключение должно воздерживаться от упомянутых каталогов. Не все сайты предоставляют исключения. Карта сайта помогает лучше узнать категоризацию продуктов и, следовательно, полезна.

0 голосов
/ 15 ноября 2011

Чтобы использовать карту сайта, она должна быть ранее, поэтому вам необходимо сначала сгенерировать ее. Затем робот Googlebot и другие будут использовать созданную вами карту сайта, чтобы проиндексировать ее для поисковых систем. Существует несколько бесплатных генераторов карт сайта, например http://www.xml -sitemaps.com , но у них есть ограничения.

AFAIK, на самом деле это не имеет ничего общего с Java. Я имею в виду, что вы можете довольно легко создать сканер с помощью Java, но я не думаю, что оно того стоит. Бесплатные версии хорошо выполняют свою работу, если сайт не слишком большой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...