У меня есть набор данных с двумя типами людей - пользователи, которые часто используют систему совместного использования велосипедов, по сравнению с теми, кто этого не делает. Давайте назовем их группой HIGH и LOW (предположим, это назначение случайное). У меня есть 10 пользователей в обеих категориях.
Мой набор данных предоставляет данные уровня поездки с тремя атрибутами: 1) пройденное расстояние 2) рейтинг поездки, предоставляемый каждому пользователю для каждой поездки, т. Е. Насколько хорошо он проехал 3) средняя скорость в поездке
Снимок данных
User TripNo Type TripRating Distance AvgSpeed VarianceofTripRating
1 1 High 75 2.5 6.8 6
1 2 High 95 4.5 8.9 6
1 3 High 55 0.5 8.1 6
2 1 Low 75 2.5 6.8 8
2 2 Low 95 4.5 8.9 8
2 3 Low 55 0.5 8.1 8
На каждого пользователя приходится примерно 500 наблюдений. Я вычисляю дисперсию оценок поездки пользователя в последнем столбце (VarianceofTripRating) таблицы, используя 500 точек данных TripRating, поэтому для одного пользователя VarianceofTripRating будет иметь одно значение. Я заинтересован в том, чтобы выяснить, отличается ли дисперсия оценок поездок между группами HIGH и LOW, используя оценку соответствия ближайшего соседа. Я хочу использовать Расстояние, AvgSpeed в качестве совпадающих переменных. Я получаю свои результаты, используя matchit
из R
. Но у меня есть два вопроса:
- Будут ли результаты действительными, если каждая поездка пользователя будет иметь одно и то же значение VarianceofTripRating для проверки нулевой гипотезы (H0) о том, что обе группы High и LOW имеют одинаковый VarianceofTripRating. Можно ли привести меня к некоторым ссылкам?
- Существуют ли другие методы, которые я могу использовать, кроме сопоставления, для проверки H0?