Конечно, вам нужно обратиться к протоколу исключения роботов (он же robots.txt
), который указывает, какие пути должны игнорироваться сканерами поисковых систем;Вы должны иметь возможность обновить это для пользовательских настроек, чтобы запретить сканирование в будущем.
Вы также можете посмотреть на функцию Google Sitemaps ;это позволяет вам предлагать Google - даже для списков страниц, которые сильно меняются - какие URL (в вашем случае URL ваших профилей пользователей) Google должен сканировать.Как они указывают, это не является гарантией того, что каждый URL будет сканироваться, но это должно помочь.
То, на что у меня нет ответа, и о котором мне было бы очень интересно узнать о некоторыхпротокол запроса поисковой системы об удалении уже просканированных URL.Насколько я знаю, удаление страницы из robots.txt и sitemap.xml не приведет к немедленному удалению Google этой страницы из ее индекса, а будет только медленно сокращаться, поскольку поисковая система решит, что она устарела.С другой стороны, ваши пользователи, вероятно, захотят, чтобы их страницы не были доступны для поиска, как только они проверят это предпочтение.Возможно, вам просто нужно рассказать пользователям об этом различии, но мне также было бы интересно узнать, есть ли у них программные способы справиться с этим.(Например, я считаю, что у Twitter есть способ попросить Google прекратить возвращать твит в результатах поиска после того, как он был удален.)