KiT2388 28 августа 2018 9

R studio: Создание сводной таблицы подмножества данных из Excel

KiT2388 / 28 августа 2018

У меня очень большая таблица Excel, которую я надеюсь проанализировать в R
Электронная таблица имеет четыре столбца: ВОЗРАСТ, СЕКС, СОСТОЯНИЕ ЗАНЯТОСТИ, ЗАРАБОТНЫЕ ПЛАТЫ
Таблица выглядит так 1 (Занято = 1-9, Безработный = "пустые ячейки")
Я хочу вывести что-то вроде сводной таблицы, которая позволяет мне понять среднюю заработную плату людей по возрасту и полу, , но только подмножество занятых (исключая пробелы в столбце занятости)

Я студент-медик и не очень разбираюсь в R! Цени любую помощь!

1 Ответ

Dan Y / 28 августа 2018

С данными.таблицы:

# example data
N <- 25
df <- data.frame(
    age        = sample(18:65, N, TRUE),
    sex        = sample(1:2,   N, TRUE),
    employment = sample(1:10,  N, TRUE),
    wages      = sample(1:50,  N, TRUE)*10
)


# convert to data.table
library(data.table)
setDT(df)

# pivot
df[employment != "", .(avg_wages = mean(wages)), by=.(age, sex)]

Для объяснения части 'pivot' на английском языке:

Держите строки, где «занятость» не пуста
Создайте новую переменную с именем «avg_wages», которая является средним значением «wages»
Но где мы берем среднее значение заработной платы по «возрасту» и «полу»

...