Как разделить фоновые HTTP-запросы - PullRequest
0 голосов
/ 04 марта 2011

Это скорее проблема понимания того, как на самом деле работает HTTP, а затем его реализации.

Мне нужен анализатор HTTP, который сможет отделять запросы главной страницы и «фоновые» запросы от некоторых данных журнала HTTP.Идея состоит в том, чтобы отделить HTTP-запросы, сделанные пользователем, от тех, которые выполняются автоматически (без использования этого термина) в фоновом режиме.Итак, из первых нескольких показов данных HTTP, которые я видел, кажется, что когда я захожу на любой нормальный веб-сайт, выбирается объект text / html, за которым следует множество других объектов, таких как css, xml, javascript, изображения и т. Д.

Теперь проблема в том, как разделить эти «фоновые» запросы, когда пользователь активно не генерирует запросы.В основном это будут рекламные объявления, перенаправления и некоторые вещи на основе Ajax из того, что я знаю.

Есть ли у кого-нибудь идеи по этому поводу.Некоторые, опыт или, может быть, ресурсы, на которые вы могли бы указать мне, чтобы начать делать этот анализ?

Ответы [ 2 ]

0 голосов
/ 04 марта 2011

Нет прямого и чистого способа сделать это. Тем не менее, вы можете подойти довольно близко, отфильтровывая запросы к файлам, которые явно не являются "пользовательскими" запросами, такими как * .jpg. Кроме того, вы можете отфильтровать то, что не является ответом HTTP / 200 (например, перенаправления 301 и 302).

Попробуйте что-нибудь вроде:

cat access.log
    | grep -E -v "(.gif|.ico|.png|.jpg|.jpeg|.js|.css) HTTP"
    | grep "HTTP/1.1\" 200"

(добавлены разрывы строк для удобства чтения)

0 голосов
/ 04 марта 2011

Нет способа отличить, какие запросы были сгенерированы браузером из-за определенных действий пользователя или из-за других автоматизированных процессов из простых запросов HTTP.Браузер / клиент - единственный, кто обладает такими знаниями, так что вам нужно сделать его частью изображения, например, реализовать анализатор как плагин браузера или встроить HTTP-клиент как часть самого анализатора.

Если вы пытаетесь создать универсальный инструмент для анализа нагрузки на трафик, обычно не имеет смысла различать трафик, генерируемый прямыми "кликами" пользователя и автоматическими запросами.

...