Уменьшение размера кросс-таблицы по частоте ответов - PullRequest
1 голос
/ 02 марта 2012

Извините, мой вопрос неофита - я новичок в R и довольно не разбираюсь в статистике.

У меня есть простая таблица на случай непредвиденных обстоятельств, представляющая количество запросов на пользователя для группы веб-страниц, собранных за определенный период времени. Всего около 15 000 наблюдений. В результате получается таблица из примерно 100 пользователей, просматривающих 50 групп страниц.

Поскольку матрица 50x100 неудобна для визуализации, я хотел бы представить подмножество этой таблицы, отсортированное по наибольшим агрегатам - либо по столбцу (группы страниц), строке (пользователи), либо, возможно, даже по величине строка за столбцом на счет. Например, я мог бы выбрать 20 лучших пользователей и 10 лучших групп или число строк за столбцом, равное 99%.

В идеале я получаю таблицу, которая по-прежнему представляет основные взаимодействия между наиболее представленными пользователями и группами страниц.

Это разумный подход? Потеряю ли я какое-то большое количество статистической значимости; и есть ли способ сравнить значение до и после.

Я должен признать, что до сих пор не знаю, как сортировать и подгруппировать таблицу на основе двух факторов, не прибегая к манипулированию строк за столбцом.

1 Ответ

0 голосов
/ 02 марта 2012
S <- trunc(10*runif(1000) )
R <- trunc(10*runif(1000))
RStab <- table(R, S)
str(RStab)
# 'table' int [1:10, 1:10] 6 12 10 13 10 7 8 6 9 10 ...
# - attr(*, "dimnames")=List of 2
#  ..$ R: chr [1:10] "0" "1" "2" "3" ...
#  ..$ S: chr [1:10] "0" "1" "2" "3" ...
 rowSums( RStab[ order(rowSums(RStab)) , order(colSums(RStab) ) ]) 
#  8   0   1   3   2   5   9   4   6   7 
# 90  94  96  99 100 101 101 103 107 109 
colSums( RStab[ order(rowSums(RStab)) , order(colSums(RStab) ) ])
  6   0   3   5   7   2   4   8   9   1 
 80  91  94  96  98 100 106 109 112 114 

5 самых высоких полей для строки и столбца:

RStab[ order(rowSums(RStab)) , order(colSums(RStab) ) ][ 6:10, 6:10]
#-------------
   S
R    2  4  8  9  1
  5 14 10 12 10 12
  9  6  8  9 10 13
  4 10 10  8  8 18
  6  9 12 12 17  8
  7 14 10 14 12  9

Звучит так, как будто вы немного потрясены статистическими вопросами.Можете ли вы объяснить более полно, что вы подразумеваете под «потерей значимости»?О каком статистическом тесте вы думали?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...