Упаковка словаря данных в R - PullRequest
7 голосов
/ 08 октября 2011

Я подумываю написать функцию словаря данных в R, которая, принимая в качестве аргумента фрейм данных, сделает следующее:

1) Создайте текстовый файл, который:

а. Суммирует фрейм данных, перечисляя количество переменных по классам, количество наблюдений, количество полных наблюдений и т. Д.

б. Для каждой переменной суммируйте ключевые факты об этой переменной: среднее, минимальное, максимальное, режим, количество пропущенных наблюдений… и т. Д.

2) Создает PDF-файл, содержащий гистограмму для каждой числовой или целочисленной переменной и гистограмму для каждой переменной атрибута.

Основная идея заключается в создании словаря данных для фрейма данных с одной функцией.

Мой вопрос: есть ли пакет, который уже делает это? А если нет, думают ли люди, что это будет полезной функцией? Спасибо

1 Ответ

6 голосов
/ 08 октября 2011

Существует множество функций describe в различных пакетах. Больше всего я знаком с Hmisc :: description. Вот его описание со страницы справки:

"Эта функция определяет, является ли переменная символ, фактор, категория, двоичная, дискретная числовая и непрерывная числовая, и печатает краткую статистическую сводку по каждой из них. Числовая переменная считается дискретной, если она имеет <= 10 уникальных значений В этом случае квантили не печатаются. Таблица частот печатается для любой недвоичной переменной, если она имеет не более 20 уникальных значений. Для любой переменной, имеющей не менее 20 уникальных значений, печатаются 5 самых низких и самых высоких значений. «</p>

И пример вывода:

Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")] 

 2  Variables      5325006  Observations
----------------------------------------------------------------------------------
CHOLEST 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90 
4410307  914699     689   199.4     141     152     172     196     223     250 
    .95 
    268 

lowest :    0   10   19   20   31, highest: 1102 1204 1213 1219 1234 
----------------------------------------------------------------------------------
HDL 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90 
4410298  914708     258    54.2      32      36      43      52      63      75 
    .95 
     83 

lowest : -11.0   0.0   0.2   1.0   2.0, highest: 241.0 243.0 248.0 272.0 275.0 
---------------------------------------------------------------------------------- 

Кроме того, с вашей точки зрения относительно получения гистограмм метод Hmisc :: latex для описывающего объекта будет производить гистограммы, чередующиеся в выводе, показанном выше. (Для этого вам необходимо установить функцию LaTeX.) Я почти уверен, что вы можете найти иллюстрацию на веб-сайте Харрелла или в презентации Amazon "Look Inside" его книги "Стратегии регрессионного моделирования". ». В книге содержится масса полезных материалов, касающихся анализа данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...