Хорошо - я нашел больше информации об этом и о том, что Amazon делает с их 6 миллионами или около того URL.
Амазонка просто делает карту на каждый день и добавляет к ней:
- новые URL
- обновленные URL-адреса
Таким образом, это означает, что они заканчивают загрузкой карт сайта - но поисковый бот будет смотреть только самые последние - так как обновленные даты недавние. Я понимал, что нужно обновить карту - и не включать URL-адрес более одного раза. Я думаю, что это правда. Но Amazon справляется с этим, поскольку карты сайта - это скорее журнал. URL-адрес может появиться на более поздней карте сайта - как это может быть обновлено - но Google не будет смотреть на старые карты, поскольку они устарели - если, конечно, это не делает основной переиндексации. Этот подход имеет большой смысл, поскольку все, что вы делаете, - это просто создаете новую карту - скажем, каждый день нового и обновленного контента и пингуете ее в Google - таким образом, Google нужно только проиндексировать эти новые URL.
Этот подход журнала синхронизируется с кодом - все, что вам нужно, - это статическая модель хранилища данных, которая хранит данные XML для каждой карты. ваша задача cron может создавать карту - ежедневно или еженедельно, а затем сохранять необработанную страницу XML в поле большого двоичного объекта или что-то еще. затем вы можете обслуживать страницы прямо из обработчика, а также индексную карту.
Я не уверен, что думают другие, но это звучит как очень работоспособный подход и загрузка с сервера - по сравнению с перестройкой огромной карты только потому, что несколько страниц могли измениться.
Я также подумал, что может быть возможно затем сжать несколько недель карт в недельную карту и 4 недели карт в месяц - так вы получите месячные карты, карты для каждой недели в текущем месяце а затем карту за последние 7 дней. Предполагая, что все даты сохранены, это уменьшит количество карт, которые приведут в порядок процесс - я думаю, с точки зрения сокращения 365 карт для каждого дня года до 12.
Вот pdf на картах сайта и подходах, используемых amazon и CNN.
http://www.wwwconference.org/www2009/proceedings/pdf/p991.pdf