Question

У меня есть таблица с> 2M строк. Меня интересуют только процентили одной переменной и процентили числа наблюдений (например, кривая Лоренца).

Как создать меньший кадр данных, который содержит, например, число наблюдений 1,101,201,301, ..., last или наблюдения, которые соответствуют, например, 1,2,3, ..., 100 процентиль от общего числа наблюдений?
Есть ли быстрый способ получить кривую Лоренца (индекс, переменная) с осями в процентах? Прямо сейчас я думал о добавлении переменных для процентилей индекса и переменных, а затем вычерчивал их друг против друга.

Спасибо

Roberto

Richie Cotton · Answer 1 · 04 июня 2010

Для «большого» набора данных

dfr <- data.frame(x = 1:1000, y = runif(1000))

Вы можете взять подмножества равномерно расположенных строк с помощью

dfr[!(seq_len(nrow(dfr)) %% 50),]

Или случайные подмножества с

dfr[sample(nrow(dfr), 20),]

Как упоминалось в gd047, используйте quantile, чтобы получить квантили / процентили.

George Dontas · Answer 2 · 04 июня 2010

Что касается первого вопроса, я бы использовал функцию quantile, чтобы получить подмножество кадра данных в соответствии с 1,2,3, ..., 100 процентилем от общего числа (скажем) первого столбца наблюдения (при условии целочисленных значений в столбце 1)

df[df[,1] %in% round(quantile(df[,1], probs = c(1:100)/100)),]

подмножество несекретных наблюдений в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

подмножество несекретных наблюдений в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов