Фон
Я работаю в онлайн-медиа-компании, в которой размещается новостной сайт с более чем 75 тыс. Страниц. В настоящее время мы используем Google Sitemap Generator (установлен на нашем сервере) для создания динамических XML-карт сайта для нашего сайта. Фактически, поскольку у нас есть тонна контента, мы используем карту сайта с картами сайта. (Google допускает не более 50 тысяч URL-адресов.)
Задача
Карты сайта генерируются каждые 12 часов и определяются поведением пользователя. То есть он анализирует файл журнала сервера и определяет, какие страницы выбираются чаще всего, и строит карту сайта на основе этого.
Поскольку мы не можем гарантировать, что НОВЫЕ страницы добавляются в карту сайта, лучше ли отправлять карту сайта в виде RSS-канала? Таким образом, каждый раз, когда один из наших редакторов создает новую страницу (или статью), она добавляется в канал и отправляется в Google. И это поднимает проблему отправки дублированного контента в Google, так как карта сайта и лента RSS могут содержать одинаковые URL. Будет ли Google наказывать нас за дублированный контент? Как другие мультимедийные или мультимедийные сайты уведомляют Google о том, что они публикуют новый контент?
Я понимаю, что googlebots индексируют только те страницы, которые он считает важными и актуальными, но было бы замечательно, если бы хотя бы одна новая статья, которую мы публикуем, была просканирована.
Любая помощь будет принята с благодарностью.