Facebook и задержка сканирования в Robots.txt? - PullRequest
11 голосов
/ 10 октября 2011

Отвечают ли боты Facebook, выполняющие веб-сканирование, директиве Crawl-delay: в robots.txt файлах?

Ответы [ 5 ]

11 голосов
/ 06 февраля 2012

Нет, это не касается robots.txt

Вопреки другим ответам здесь, facebookexternalhit ведет себя как самый злой из сканеров. Получил ли он URL-адреса, которые он запрашивает при сканировании или от похожих кнопок, не имеет большого значения, когда он проходит через каждый из них с безумной скоростью.

Иногда мы получаем несколько сотен обращений в секунду, поскольку они проходят почти через каждый URL нашего сайта. Это убивает наши серверы каждый раз. Самое смешное, что когда это происходит, мы видим, что робот Google замедляется и ждет, пока что-то успокоится, прежде чем снова медленно расти. facebookexternalhit, с другой стороны, просто продолжает колотить наши серверы, зачастую сильнее, чем первоначальный бой, который нас убил.

Нам нужно запустить гораздо более мощные серверы, чем нам нужно для нашего трафика, просто из-за facebookexternalhit. Мы провели множество поисков и не можем найти способ их замедлить.

Как это хороший пользовательский опыт, Facebook?

5 голосов
/ 07 ноября 2012

Для аналогичного вопроса я предложил техническое решение, которое просто ограничивает скорость загрузки на основе пользовательского агента.

Код, повторенный здесь для удобства:

Так как никто не может обратиться к их высокомерию, и DROP'инг их IP-блока является довольно драконовским, вот мое техническое решение.

В PHP выполните следующий код как можно быстрее для каждого запроса.1010 *

2 голосов
/ 20 октября 2011

Facebook фактически использует этот алгоритм, который вы можете проверить сами здесь:

http://developers.facebook.com/tools/debug

Срок службы этих данных в кеш Facebook варьируется, но, по моему опыту, он составляет 24-48 часов.

Вы можете, однако, сделать кеш «недействительным», если добавите в свой URL часть, чтобы пользователи могли делиться новой, ИЛИ вы можете предоставить ссылки bit.ly (и тому подобное), которые будут иметьтот же эффект.

Так как он на самом деле не сканируется, вы не можете заставить его отложить очистку (и не должны, так как это создаст плохой пользовательский опыт - они будут ждать некоторое время, пока скребокзакончить, и им будет предоставлена ​​общая ссылка, которая не очень).Однако вы МОЖЕТЕ вручную запустить очистку с заданными интервалами, чтобы обеспечить лучший пользовательский опыт (они не будут ждать кэширования данных) и балансировку нагрузки на сервер.

0 голосов
/ 29 мая 2014

если вы работаете на сервере ubuntu и используете брандмауэр ufw, вы можете попробовать

ufw limit proto tcp с 31.13.24.0/21 порт 80 на любой

для всехэти IP-адреса: 31.13.24.0/21 31.13.64.0/18 66.220.144.0/20 69.63.176.0/20 69.171.224.0/19 74.119.76.0/22 ​​103.4.96.0/22 ​​173.252.64.0/18 204.15.20.0/22

как показано здесь: Какой диапазон IP-адресов у сканера Open Graph в Facebook?

0 голосов
/ 17 октября 2011

У нас нет гусеничного шасси. У нас есть скребок, который очищает метаданные на страницах с похожими кнопками /, которые используются в FB.

...