Я вижу, что необходимо получать статистические данные из большого количества URL-запросов, например, из журналов HTTPD-запросов.Идея состоит в том, чтобы узнать процент различных типов запросов, т.е.объединить их в разные ведра.
Я знаю, что один из подходов состоит в том, чтобы определять шаблон другого запроса вручную.Однако существует ли какой-либо существующий инструмент / алгоритм, который имеет интеллектуальный и адаптивный алгоритм агрегирования на основе общих префиксов, видимых в URL-адресах?
Например, если URL-адреса в журналах выглядят следующим образом:
/api/docker/a/..
/api/docker/a/..
/api/docker/a/..
... (repeat a lot, all started with /api/docker/a)
/api/docker/b/..
/api/docker/b/..
... (repeat a lot, all started with /api/docker/b)
/api/token
/api/token
Тогда я ожидал бы, что интеллектуальный инструмент / алгоритм будет выводить как:
/api/docker/a M
/api/docker/b N
/api/token 2
Инструмент / алгоритм должен быть в состоянии разумно агрегировать на основе статистики самих данных,что не требуется или не требуется никакой человеческий вклад.