Использование Bigquery для веб-аналитики, как отфильтровывать вредоносные вредоносные данные, такие как боты и т. Д. - PullRequest
0 голосов
/ 01 мая 2019

Я использую BigQuery для анализа веб-трафика, и у меня есть некоторые проблемы с выяснением того, как отфильтровать реальных пользователей от ботов и вредоносных запросов.

Я могу отфильтровать по IP, но он быстро станетдлинный запрос, если я должен включить все IP-адреса, что плохо.Так что это не похоже на хорошее решение.

Я могу избежать его попадания в BigQuery, но их проблема в том, что я только замечаю, что это плохие / вредоносные / спам данные через некоторое время, я не могу предотвратитьэто получить его первым.Я могу сгенерировать запрос, чтобы найти ботов, забрать результат и передать его обратно, чтобы запретить тем, кто попадает в bigquery, но это звучит так, как у большинства других.

Я также могу принимать данные в BigqueryЗапустите мой запрос, чтобы найти злоумышленников, а затем создайте новую таблицу с очищенными данными.Это также может быть решением, но мне не хватает опыта того, как это делают другие.

Это просто шум в вашем наборе данных, который вы должны принять, если он небольшой, или какие меры мне следует предпринять?

1 Ответ

2 голосов
/ 01 мая 2019

Фильтрация по IP - хорошая идея. Единственное, что нужно сделать, это сохранить неверный IP-адрес в таблице, чтобы ваш запрос не увеличивался при добавлении большего количества IP-адресов.

SELECT * FROM my_visit_history
WHERE ip_addr NOT IN (SELECT ip FROM blacklisted_ips);

-- Or with a view to further simplify your future query:
CREATE VIEW my_clean_visit_history AS
SELECT * FROM my_visit_history
WHERE ip_addr NOT IN (SELECT ip FROM blacklisted_ips);


Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...