подмножество несекретных наблюдений в R - PullRequest
1 голос
/ 04 июня 2010

У меня есть таблица с> 2M строк. Меня интересуют только процентили одной переменной и процентили числа наблюдений (например, кривая Лоренца).

  • Как создать меньший кадр данных, который содержит, например, число наблюдений 1,101,201,301, ..., last или наблюдения, которые соответствуют, например, 1,2,3, ..., 100 процентиль от общего числа наблюдений?

  • Есть ли быстрый способ получить кривую Лоренца (индекс, переменная) с осями в процентах? Прямо сейчас я думал о добавлении переменных для процентилей индекса и переменных, а затем вычерчивал их друг против друга.

Спасибо

Roberto

Ответы [ 2 ]

1 голос
/ 04 июня 2010

Для «большого» набора данных

dfr <- data.frame(x = 1:1000, y = runif(1000))

Вы можете взять подмножества равномерно расположенных строк с помощью

dfr[!(seq_len(nrow(dfr)) %% 50),]

Или случайные подмножества с

dfr[sample(nrow(dfr), 20),]

Как упоминалось в gd047, используйте quantile, чтобы получить квантили / процентили.

1 голос
/ 04 июня 2010

Что касается первого вопроса, я бы использовал функцию quantile, чтобы получить подмножество кадра данных в соответствии с 1,2,3, ..., 100 процентилем от общего числа (скажем) первого столбца наблюдения (при условии целочисленных значений в столбце 1)

df[df[,1] %in% round(quantile(df[,1], probs = c(1:100)/100)),]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...