У меня есть набор данных enGB5
, который выглядит следующим образом:
sample_no hypothesis_no correct voice_score
<dbl> <dbl> <lgl> <dbl>
1 0 1 TRUE 7498
2 0 2 FALSE 7147
3 0 3 FALSE 7137
4 0 4 FALSE 7003
5 0 5 FALSE 7003
6 1 1 TRUE 7349
7 1 2 FALSE 7133
8 1 3 FALSE 7104
9 1 4 FALSE 7065
10 1 5 FALSE 6960
5 различных гипотез для каждого образца возвращаются программным обеспечением для распознавания голоса. Относительные вероятности правильности гипотез определяются как f(voice_score)
для некоторого неизвестного fn f
. Так, например, для образца 0 распределение будет пропорционально
f(7498) : f(7147) : f(7137) : f(7003) : f(7003)
Я пытался использовать пакет R earth
, чтобы соответствовать f. Так что-то вроде
earth(correct ~ voice_score, data = enGB5, glm=list(family=binomial))
(впервые использую его - и у меня тоже нет такого опыта работы с R). Я не могу найти способ заставить earth
принимать данные в длинном формате при пониманиигруппировка гипотез. Т.е. я не могу найти такие параметры, как chid.var = "sample_no"
и alt.var = "hypothesis_no"
в mlogit
.
Есть ли способ заставить earth
принимать данные в длинном формате?