Программное обеспечение для построения карты сайта - PullRequest
1 голос
/ 15 апреля 2010

Если бы мне пришлось создать инвентаризацию контента для веб-сайта, у которого нет карты сайта, и у меня нет доступа для изменения веб-сайта, но сайт очень большой. Как я могу создать карту сайта из этого сайта, не просматривая его полностью? Я пытался с помощью построителя карты сайта Visio, но это не удалось. Скажем для примера: я хочу создать карту сайта Stackoverflow. Ребята, вы знаете программное обеспечение для его создания?

Ответы [ 4 ]

1 голос
/ 15 апреля 2010

Вам нужно будет просмотреть его целиком, чтобы найти на каждой странице уникальные ссылки на сайте, а затем поместить их в индекс.

Также для каждой уникальной ссылки, найденной на сайте, вам необходимо посетить эту страницу и найти дополнительные уникальные ссылки.

Вы бы использовали такой инструмент, как HtmlAgilityPack, чтобы легко захватывать URL-адреса и извлекать из них ссылки.

Я написал статью, в которой затрагивается часть проблемы с извлечением ссылок:

0 голосов
/ 16 апреля 2010

Существует довольно большая коллекция генераторов файлов Sitemap для XML (если вы хотите, чтобы это было сгенерировано, а не HTML-карта сайта или что-то еще?) На http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Как правило, для любого более крупного сайта лучшим решением является получение информации непосредственно из источника, например, из базы данных, которая обеспечивает работу сайта. Сделав это, вы можете получить наиболее точный и актуальный файл Sitemap. Если вам нужно сканировать сайт, чтобы получить URL-адреса для файла Sitemap, это займет довольно много времени для более крупного сайта, и он будет загружать сервер в течение этого времени (это похоже на посещение всех страниц на вашем сайте). Периодически обходите сайт, чтобы определить, есть ли проблемы с возможностью сканирования (такие как бесконечные календари, содержимое, скрытое в формах и т. Д.), - это хорошая идея, но если вы можете, обычно лучше получить URL-адреса для файла Sitemap напрямую.

0 голосов
/ 15 апреля 2010

Только что гуглил и нашел этот. http://www.xml -sitemaps.com / Выглядит довольно интересно!

0 голосов
/ 15 апреля 2010

Я бы зарегистрировал все ваши страницы в базе данных, а затем просто вывел их все на страницу (php - sql). Может быть, даже индексирование программного обеспечения может помочь вам! Прежде всего, просто убедитесь, что все ваши страницы связаны, и отправьте их в Google еще!

...