Обнаружение строк запросов CacheBuster при сканировании страницы - PullRequest
0 голосов
/ 18 марта 2009

Я собрал довольно простой движущийся механизм, который работает довольно хорошо и по большей части избегает застревания в ловушках с круговым циклом. (Т. Е. Страница A ссылается на страницу B, а страница B ссылается на страницу A).

Единственный раз, когда он застревает в этом цикле, это когда обе страницы ссылаются друг на друга с помощью строки запроса cachebuster, в основном это уникальная строка запроса для каждой ссылки для каждого обновления.

Это заставляет страницы всегда выглядеть для сканера как новые страницы, и сканер застревает при перемещении между двумя страницами.

Кроме разрыва после N количества отскоков между двумя страницами с единственным отличием, являющимся строкой запроса (что, я не думаю, является очень хорошим подходом), есть ли другой способ обнаружения и устранения этих ловушек ...

1 Ответ

0 голосов
/ 12 мая 2009

Может быть, это просто идентификаторы сессий, а не "нарушители кеша" - куки помогут

Несколько лет назад мне пришлось столкнуться с подобной проблемой, и мы нашли простое решение: включить куки в вашем веб-клиенте. Вот объяснение, почему это помогло нам:

Это правда, что некоторые URL-адреса (в частности, рекламные изображения) предназначены для «кеширования». Однако мы не нашли с ними циркулярных ссылок.

Многие URL-адреса добавляют в URL произвольно выглядящую строку, чтобы идентифицировать посетителей . Нет никакого намерения уничтожать кэши - это всего лишь побочный эффект их метода получения уникального «идентификатора сеанса» для каждого посетителя.

Конечно, гораздо лучше идентифицировать посетителей с помощью файлов cookie. Фактически, большинство динамических сайтов, которые используют идентификаторы сеанса, сначала пробуют файлы cookie. Только когда они обнаруживают, что веб-клиент их не поддерживает, сайт возвращается к добавлению идентификаторов сеансов в URL-адреса.

Итог:

  • Включая файлы cookie, мы можем поддерживать большинство динамических сайтов и избегать случайных строк (идентификаторов сеансов) в URL-адресах.
  • Рекламодатели делают используют средства кеширования --- но в основном без циклических ссылок.

Для нас это решило проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...