Я новичок в этой области. Я сталкиваюсь с некоторыми проблемами при сравнении алгоритмов с использованием статистического теста. У меня есть следующий результат Gmean некоторого алгоритма классификации. Abalone, Balance-scale, Car, Chess - это здесь наборы данных, а ROS, RUS, RFS, NoS - это алгоритмы.
Если я хочу сравнить какой набор данных лучше других, используя какой-то статистический тест, например, t- тест, тест Фридмена, тест Вилкоксона и др. c тогда возможно ли мне сравнить алгоритм, используя следующую таблицу?
ROS RUS RFS NoS
Abalone 0.003 0.0036 0.0039 0
Balance-scale 0.8858 0.8065 0.8966 0.9417
Car 0.9191 0.7216 0.9056 0.9094
Chess 0.4912 0.1973 0.5084 0.1438
Если у кого-нибудь есть какие-либо идеи по этому поводу, пожалуйста, помогите мне. Или вы можете поделиться любыми ссылками, где я могу найти решения. Я изучил эти статистические тесты, нулевую гипотезу, p-значение и т. Д. 1012 *, но не мог понять, можно ли сравнивать эти алгоритмы с использованием Gmean.
*** G-mean = Geometri c Имеется в виду, используется для оценки производительности мультиклассовых классификаторов
Заранее спасибо.