Учитывая, что у меня есть модель глубокого обучения (передача от бывшего коллеги). По какой-то причине набор train / dev отсутствует.
В моей ситуации я хочу классифицировать свой набор данных на 100 категорий. Набор данных крайне несбалансирован. Размер набора данных составляет около десятков миллионов
Прежде всего, я запускаю модель и получаю прогноз для всего набора данных.
Затем я выбираю 100 записей в каждой категории (согласно прогнозу ) и получил набор из 10000 тестов.
Затем я пометил основную истинность каждой записи для набора тестов и вычислил точность, отзыв, f1 для каждой категории и получил F1-микро и F1-макро.
Как оценить точность или другие метрики для всего набора данных? Верно ли, что я использую взвешенную сумму точности каждой категории (вес - это доля прогнозирования в целом) для оценки?
Поскольку распределение категории прогнозирования не совпадает с распределением реальной категории, Я думаю, взвешенный подход не работает. Кто-нибудь может это объяснить?