Страницы с состоянием калитки вызывают ползучую перегрузку от googlebot - PullRequest
0 голосов
/ 04 января 2019

Мы использовали Wicket для нескольких разных проектов начиная с версии 1.5. Недавно мы обновились до Wicket 8 (с 6 и 7), и у нас возникли проблемы с сканером Google. Возможно, это началось, когда мы были на Wicket 6, я не уверен, потому что это как-то подкралось к нам ...

Проблема связана с тем, что Wicket добавляет pageId (версию) в URL страниц с сохранением состояния, и все ссылки на этой странице используют один и тот же идентификатор (ссылки ajax).

У нас есть одностраничное приложение с множеством ссылок ajax, и мы видим, что трафик googlebot растет день ото дня. Глядя на журналы доступа, я вижу, что Google пытается URL-адреса с pageid вверх от 4 500 000 (по крайней мере, это был просто случайный образец) (? 4529280-1.0-xxxx). Умножьте это примерно на 100 ссылок на страницу (если не больше), и вы увидите проблему. Мы также видим, что Google пробует ссылки, где pageid все еще равен 0, но rendercount огромен (? 0-4534543.0-xxxx).

Почему это происходит? Я не думаю, что раньше это происходило, но в этом случае я не знаю, изменил ли Wicket что-то или Google изменил что-то.

(Использование setVersioned (false) не помогает, поскольку Wicket все еще добавляет и увеличивает pageId, насколько я могу видеть)

Нам повезло с изменением другого приложения на использование страниц без состояния, но я не уверен, что мы сможем сделать это с этим, и в любом случае это немало работы ...

1 Ответ

0 голосов
/ 04 января 2019

Нет изменений в способе, которым Wicket кодирует идентификатор страницы в URL, начиная с 1.5.0, поэтому он должен быть одинаковым для всех ваших приложений.

Вы можете указать ботам не индексировать или не переходить по ссылкам на странице с метаэлементами, такими как:

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">

Или вы можете использовать robots.txt для достижения того же.

Вы также можете использовать rel="nofollow" для конкретных ссылок на своей странице:

<a href="https://www.example.com" rel="nofollow">example</a>

И да, обычно рекомендуется использовать страницы без сохранения состояния для общедоступных страниц. С сохранением состояния следует использовать для страниц, которые находятся за какой-либо аутентификацией / авторизацией.

...