Создание боксов в R с использованием решетки для уже обработанных данных - PullRequest
3 голосов
/ 22 декабря 2011

Я пытаюсь создать блокпост в R с очень большим набором данных. Файл, содержащий данные, имеет размер 2,5 ГБ и вылетает R, если я пытаюсь его импортировать. К счастью, какое-то другое программное обеспечение (python) может генерировать среднее значение и дисперсию без проблем, и это все, что я действительно хочу построить (пока).

В каждом уроке, который я нашел до сих пор, требуется, чтобы вы вводили полный набор данных, а затем R вычисляет саму статистику, но мне было интересно, как передать среднее значение, медиану, минимум, максимум и т. Д. В bwplot просто для построения. Причина, по которой я предпочитаю R и решетку, состоит в том, что они хорошо интегрируются с программным пакетом, в котором может оказаться код. Если бы я использовал matlab или другое программное обеспечение, это было бы проблемой, потому что это было бы еще одним требованием от наших нынешних пользователей.

1 Ответ

6 голосов
/ 22 декабря 2011

Boxplots делают не среднее значение или дисперсию. На самом деле вам нужны полные ранжированные данные для построения правильного коробочного графика, потому что величины - это медиана, квартили и фактическое значение закрываемой точки данных в пределах 1,5-кратного IRQ плюс всех точек данных, которые находятся вне этого диапазона (выбросы ). Обычно это не очень хорошая идея для большого набора данных (потому что по определению у вас миллионы выбросов).

Тем не менее, вы можете сгенерировать основные итоги любым удобным для вас способом и использовать bxp для их построения - см. ?bxp в R. Просто убедитесь, что вы уточняете, какие количества вы наносите, если они не указаны выше.

...