Агрегирование шаблонов для большого количества URL-запросов - PullRequest
0 голосов
/ 10 июля 2019

Я вижу, что необходимо получать статистические данные из большого количества URL-запросов, например, из журналов HTTPD-запросов.Идея состоит в том, чтобы узнать процент различных типов запросов, т.е.объединить их в разные ведра.

Я знаю, что один из подходов состоит в том, чтобы определять шаблон другого запроса вручную.Однако существует ли какой-либо существующий инструмент / алгоритм, который имеет интеллектуальный и адаптивный алгоритм агрегирования на основе общих префиксов, видимых в URL-адресах?

Например, если URL-адреса в журналах выглядят следующим образом:

/api/docker/a/..
/api/docker/a/..
/api/docker/a/..
... (repeat a lot, all started with /api/docker/a)
/api/docker/b/..
/api/docker/b/..
... (repeat a lot, all started with /api/docker/b)
/api/token
/api/token

Тогда я ожидал бы, что интеллектуальный инструмент / алгоритм будет выводить как:

/api/docker/a    M
/api/docker/b    N
/api/token       2

Инструмент / алгоритм должен быть в состоянии разумно агрегировать на основе статистики самих данных,что не требуется или не требуется никакой человеческий вклад.

...