Как остановить 403 и 404 ошибки http от ботов в Facebook и / или обновить кеш ресурсов - PullRequest
3 голосов
/ 13 января 2012

Я получаю множество ошибок 403 и 404 от ботов Facebook после изменения структуры каталогов на моем сервере несколько недель назад.Конечно, таких ошибок следует ожидать в этой ситуации до тех пор, пока кэш не очистится, и это произошло в большинстве случаев.Тем не менее, я все еще получаю эту ошибку для выбранной группы ссылок общего доступа.Я неоднократно пытался очистить кеш с помощью инструмента отладки для соответствующих страниц, и в выводе все выглядит идеально, но плохие запросы продолжают поступать.(Инструмент Lint: URL инструмента Lint ).Вот несколько примеров из моих журналов:

Журнал HTTP-доступа:

69.171.224.251 - - 443 [13/Jan/2012:06:22:01 -0500] "GET /web/user/images/b0/b0ahhSjq1C1oEX0TBS5gLAmcSX4wKdPT.240.jpg HTTP/1.1" 403 338

И журнал ошибок http:

[Fri Jan 13 05:55:01 2012] [error] [client 69.171.228.249] File does not exist: /var/xxx/www/html/web/user/images/1/ab/abSIktLHDs3rcUPYyFtxsP8J9u7vvaVr.240.jpg

Эти IP-адреса указывают на Facebook.

Возможно, я пишу неправильный URL?Как я могу узнать, к какой ссылке относятся эти запросы?Не перестает ли Facebook перестать запрашивать через какой-то момент и обновить свой кеш?Вторая ошибка, описанная выше, повторяется примерно 25 раз в день в течение последней недели.

(На данный момент я не буду рассматривать переписывание URL.)

1 Ответ

0 голосов
/ 14 января 2012

Вы должны установить 301 постоянных перенаправлений. Или сделайте что-то вроде переписывания URL. В любом случае работает.

Вы также можете быть уверены, что в ваших отчетах отфильтрован пользовательский агент для линтера / скребка

Когда Facebook очищает мою страницу?

Facebook нужно почистить страницу, чтобы узнать, как ее отобразить. сайте.

Facebook очищает вашу страницу каждые 24 часа, чтобы убедиться, что свойства до настоящего времени. Страница также очищается, когда администратор для Open Graph страница нажимает кнопку «Мне нравится» и когда URL-адрес вводится в Facebook URL Linter. Facebook отслеживает заголовки кэша на ваших URL - это будет смотреть на «Expires» и «Cache-Control» в порядке предпочтения. Тем не менее, даже если вы укажете более длительное время, Facebook страница каждые 24 часа.

Пользовательский агент скребка: "facebookexternalhit / 1.1 (+ http://www.facebook.com/externalhit_uatext.php)"

...