Я подпрыгиваю между размещением этого сообщения здесь и в Superuser. Пожалуйста, извините, если вы чувствуете, что это не относится к этому месту.
Я наблюдаю за поведением, описанным здесь - робот Googlebot запрашивает случайные URL-адреса на моем сайте, например aecgeqfx.html
или sutwjemebk.html
. Я уверен, что я не связываю эти URL-адреса нигде на моем сайте.
Я подозреваю, что это может быть Google, исследующий, как мы обращаемся с несуществующим содержанием - чтобы процитировать ответ на связанный вопрос:
[google is requesting random urls to] see if your site correctly
handles non-existent files (by returning a 404 response header)
У нас есть пользовательская страница для несуществующего контента - стилизованная страница с надписью «Контент не найден, если вы считаете, что попали сюда по ошибке, пожалуйста, свяжитесь с нами», с несколькими внутренними ссылками, обслуживаемыми (естественно) 200 OK
, URL обслуживается напрямую (без перенаправления на один URL).
Я боюсь, что это может дискриминировать сайт в Google - они могут не интерпретировать дружественную пользователю страницу как 404 - not found
и могут подумать, что мы пытаемся что-то подделать и предоставить дублированный контент.
Как мне поступить, чтобы убедиться, что Google не будет думать, что сайт является поддельным, и при этом предоставляет пользователям удобное сообщение в случае, если они случайно нажмут на неработающие ссылки?