Я использую межрейтерское соглашение для оценки соглашения в моем наборе данных рейтинга.У меня есть набор N
примеров, распределенных среди M
оценщиков.Не все оценщики проголосовали за каждый пункт, поэтому в качестве верхней границы я выбрал N x M
голосов.Допустим, что оценщик i
дает следующие голоса элементам N
для заданных N=5
и M=3
, где в массиве в позиции j
находится элемент j-th
:
rater[1] = [1,3,0,5,5]
rater[2] = [0,3,1,5,2]
rater[3] = [1,2,0,5,3]
, где 0
означает, что избиратель не выразил никакой опции относительно позиции в позиции j
.Теперь я не могу использовать каппу Коэна, так как для этого требуется почти два варианта, поэтому я думаю использовать Alpha Krippendorff из NLTK или multi-kappa .
В моем наборе данных
Голоса в конечном итоге могут быть редкими, то есть могут быть предметы, которые имеют мало голосов, следовательно, как наихудший случай
rater[i] = [0, 0, ...,j, ..., 0]
чтобы элемент j
мог иметь только один голос оценщика i
во всем наборе данных.
- Каждый элемент должен иметь хотя бы один голос, следовательно, нет элементов снулевой массив.
- Количество оценщиков
M
меньше, чем количество элементов N
, M < N
.
Что является лучшим подходом для NLTK метрика реализация пакета?