Отправить RSS-канал как файл Sitemap в Google? - PullRequest
1 голос
/ 17 августа 2010

Фон

Я работаю в онлайн-медиа-компании, в которой размещается новостной сайт с более чем 75 тыс. Страниц. В настоящее время мы используем Google Sitemap Generator (установлен на нашем сервере) для создания динамических XML-карт сайта для нашего сайта. Фактически, поскольку у нас есть тонна контента, мы используем карту сайта с картами сайта. (Google допускает не более 50 тысяч URL-адресов.)

Задача

Карты сайта генерируются каждые 12 часов и определяются поведением пользователя. То есть он анализирует файл журнала сервера и определяет, какие страницы выбираются чаще всего, и строит карту сайта на основе этого.

Поскольку мы не можем гарантировать, что НОВЫЕ страницы добавляются в карту сайта, лучше ли отправлять карту сайта в виде RSS-канала? Таким образом, каждый раз, когда один из наших редакторов создает новую страницу (или статью), она добавляется в канал и отправляется в Google. И это поднимает проблему отправки дублированного контента в Google, так как карта сайта и лента RSS могут содержать одинаковые URL. Будет ли Google наказывать нас за дублированный контент? Как другие мультимедийные или мультимедийные сайты уведомляют Google о том, что они публикуют новый контент?

Я понимаю, что googlebots индексируют только те страницы, которые он считает важными и актуальными, но было бы замечательно, если бы хотя бы одна новая статья, которую мы публикуем, была просканирована.

Любая помощь будет принята с благодарностью.

1 Ответ

1 голос
/ 22 августа 2010

Почему бы просто не иметь каждую страницу в вашей карте сайта? 75 тыс. Страниц - это не так уж много, многие сайты имеют несколько карт сайтов, которые составляют миллионы страниц, и Google переварит их все (хотя Google будет индексировать только те из них, которые вы считаете важными).

Один из методов для вас - разделить карты сайта на новый и архивированный контент на основе даты публикации - например, один файл сайта для всего контента за предыдущие 7 дней, а остальное содержимое разделить на другие файлы карты сайта, как Это может помочь быстро проиндексировать ваш самый свежий контент.

Возвращаясь к вашему вопросу о карте сайта RSS-канала - не беспокойтесь о дублировании контента, так как это не проблема, когда дело доходит до карт сайта. Повторяющийся контент является проблемой только в том случае, если вы опубликовали одну и ту же статью несколько раз на сайте - карты сайта и RSS-каналы представляют собой только ссылки на контент, а не на сам контент, поэтому, если RSS-канал является самым простым способом сообщите о своем новом контенте в Google, иди на это.

...