Извините, мой вопрос неофита - я новичок в R и довольно не разбираюсь в статистике.
У меня есть простая таблица на случай непредвиденных обстоятельств, представляющая количество запросов на пользователя для группы веб-страниц, собранных за определенный период времени. Всего около 15 000 наблюдений. В результате получается таблица из примерно 100 пользователей, просматривающих 50 групп страниц.
Поскольку матрица 50x100 неудобна для визуализации, я хотел бы представить подмножество этой таблицы, отсортированное по наибольшим агрегатам - либо по столбцу (группы страниц), строке (пользователи), либо, возможно, даже по величине строка за столбцом на счет. Например, я мог бы выбрать 20 лучших пользователей и 10 лучших групп или число строк за столбцом, равное 99%.
В идеале я получаю таблицу, которая по-прежнему представляет основные взаимодействия между наиболее представленными пользователями и группами страниц.
Это разумный подход? Потеряю ли я какое-то большое количество статистической значимости; и есть ли способ сравнить значение до и после.
Я должен признать, что до сих пор не знаю, как сортировать и подгруппировать таблицу на основе двух факторов, не прибегая к манипулированию строк за столбцом.