Я работаю с одним механизмом рекомендаций, где вы вводите запрос (строку) и выбираете один фильтр (строку модулей), и система выводит файлы в порядке ранжирования с процентом релевантности.
Существует 100 000 файлов, и для каждого запроса может быть от 3 до 50 файлов, которые необходимо изменить.Для выбора файлов я проверяю исторические данные, где файл изменяется с помощью ключевых слов из запроса, и я применил различные программы ml, чтобы создать матрицу, имеющую файлы против ключевых слов и оценки.
Также существует иерархия файлов проекта, и у нас есть отдельная матрица, имеющая вес папок модулей в виде данных в файле против матрицы module_keyword.
Теперь, когда вводится запрос, я проверяю оценку релевантности, рассчитанную для каждогофайл из матрицы и усреднить их.Теперь я хочу знать, в среднем хорошо.Как я могу получить долю каждого, который должен быть взят, если не средний.
Поскольку в результате получается около 200 файлов, в порядке ранжирования, как я могу определить оценку ошибки в этом?