Расчет точности столбца с категориальными данными - PullRequest
0 голосов
/ 21 февраля 2019

У меня есть коллекция данных, которые были сгруппированы.Каждый кластер содержит таблицу строк и столбцов, а для каждого кластера - центроид, который представлен в виде строки данных.Для каждого столбца данных я рассчитываю рассчитать точность того, что было выбрано по сравнению с центроидом.Теперь, возможно, это очевидно.Это мое первое предположение: взять число вхождений значения, равного центроиду в столбце, и разделить на количество строк.Однако мне интересно, если этот расчет изменяется в зависимости от количества различных значений, которые может иметь столбец.

Скажем, например, у меня есть следующие данные в столбце, и мое значение центроида M

M, F, M, M, F.

Точность этого столбцато есть .60

Но как насчет столбца с 3 типами категорий

M, F, U, M, M, U, F, F, M, M: если мое значение центроида равноM, есть 5 Ms, но 10 рядов, таким образом, точность равна .50.Учитывая, что M является большинством, это не похоже на хороший способ получить точность столбца.Или это единственный способ получить точность столбца?

...