Я работаю над проектом двоичной текстовой классификации, и я хотел бы знать, возможно ли рассчитать микро и макро среднее значение, исходя из значений точности, точности, отзыва и F1, полученных из LibSVM.
Что я сделал:
- Определение 3 наборов золотых стандартов
- Ручная аннотация ресурсов как хорошая или плохая.
- Разделить каждый набор данных между обучающим и тестовым наборами данных (80% обучения, 20% теста)
- Текст, представленный в виде вектора функций с использованием вложений FastText (предварительно обученных в Википедии)
- Векторы вычисляются с использованием SVM с ядром RBF.
Я провел перекрестную проверку (10 крат) для каждого (всего) набора данных
В результате я получаю значения в следующая таблица:
---------------------------------------------
| | Dataset1 | Dataset2 | Dataset3 |
|----------|----------|----------|----------|
| R | 85.57% | 93.70% | 95.52% |
| P | 80.55% | 89.45% | 85.14% |
| F1 | 82.98% | 91.53% | 90.03% |
| Accuracy | 82.22% | 88.85% | 86.35% |
---------------------------------------------
Теперь смысл: можно ли рассчитать микро- и макро-среднее для каждого R, P, F1 и точности для каждого набора данных, исходя из значений таблицы?
Читая через аналогичный пост о переполнении стека, я заметил, что TP, FN, TN должны быть рассмотрены. Если невозможно вычислить среднее значение, используя значение таблицы, как я могу рассчитать TP, FN и т. Д. c в R или Python?
Спасибо