Я использую BigQuery для анализа веб-трафика, и у меня есть некоторые проблемы с выяснением того, как отфильтровать реальных пользователей от ботов и вредоносных запросов.
Я могу отфильтровать по IP, но он быстро станетдлинный запрос, если я должен включить все IP-адреса, что плохо.Так что это не похоже на хорошее решение.
Я могу избежать его попадания в BigQuery, но их проблема в том, что я только замечаю, что это плохие / вредоносные / спам данные через некоторое время, я не могу предотвратитьэто получить его первым.Я могу сгенерировать запрос, чтобы найти ботов, забрать результат и передать его обратно, чтобы запретить тем, кто попадает в bigquery, но это звучит так, как у большинства других.
Я также могу принимать данные в BigqueryЗапустите мой запрос, чтобы найти злоумышленников, а затем создайте новую таблицу с очищенными данными.Это также может быть решением, но мне не хватает опыта того, как это делают другие.
Это просто шум в вашем наборе данных, который вы должны принять, если он небольшой, или какие меры мне следует предпринять?