Question

У меня есть такой фрейм данных:

group   student exam_passed subject 
A       01      Y           Math
A       01      N           Science
A       01      Y           Japanese
A       02      N           Math
A       02      Y           Science
B       01      Y           Japanese
C       02      N           Math

Я бы хотел получить следующий результат:

group   student exam_passed subject_Math  subject_Science  subject_Japanese   
A       01      Y           1             0                0
A       01      N           0             1                0
A       01      Y           0             0                1
A       02      N           1             0                0           
A       02      Y           0             1                0
B       01      Y           0             0                1
C       02      N           1             0                0

Вот кадр тестовых данных:

df <- data.frame(
group = c('A', 'A', 'A', 'A', 'A', 'B', 'C'),
student = c('01', '01', '01', '02', '02', '01', '02'),
exam_pass = c('Y', 'N', 'Y', 'N', 'Y', 'Y', 'N'),
subject = c('Math', 'Science', 'Japanese', 'Math', 'Science', 'Japanese', 'Math')
)

Я попытался выполнить цикл, однако исходные данные слишком велики для обработки, и

mltools::one_hot(df, col = 'subject')

также не работает из-за этой ошибки:

Error in `[.data.frame`(dt, , cols, with = FALSE) :
unused argument (with = FALSE)

Может ли кто-нибудь помочь мне с этим?Спасибо!

Mouad_S · Answer 1 · 27 сентября 2018

require(tidyr)
require(dplyr)

df %>% mutate(value = 1)  %>% spread(subject, value,  fill = 0 ) 


group student exam_pass Japanese Math Science
1     A      01         N        0    0       1
2     A      01         Y        1    1       0
3     A      02         N        0    1       0
4     A      02         Y        0    0       1
5     B      01         Y        1    0       0
6     C      02         N        0    1       0

quant · Answer 2 · 27 сентября 2018

Вот более общее решение с использованием библиотеки data.table и caret

library(caret)
library(data.table)

dt <- data.table(
  group = c('A', 'A', 'A', 'A', 'A', 'B', 'C'),
  student = c('01', '01', '01', '02', '02', '01', '02'),
  exam_pass = c('Y', 'N', 'Y', 'N', 'Y', 'Y', 'N'),
  subject = c('Math', 'Science', 'Japanese', 'Math', 'Science', 'Japanese', 'Math')
)

vars <- 'subject'
separator <- '_'


bin_vars <- predict(dummyVars( as.formula(paste0("~",paste0(vars,collapse = "+"))),
                               data = dt, na.action = na.pass), newdata = dt)

colnames(bin_vars) <- paste0(gsub(vars,paste0(vars,separator),colnames(bin_vars)))

dt[,vars:=NULL]
dt <- cbind(dt,bin_vars)

FScott · Answer 3 · 27 сентября 2018

Вы можете использовать R в качестве целых чисел.

Примерно так:

new.data<-cbind(
 old.data,
 math=as.integer(old.data$subject=="math")
)

B Williams · Answer 4 · 27 сентября 2018

другой вариант

library(dplyr)
df %>% 
  mutate(subject_Math = ifelse(subject=='Math', 1, 0),
         subject_Science = ifelse(subject=='Science', 1, 0),
         subject_Japanese = ifelse(subject=='Japanese', 1, 0))

shadowtalker · Answer 5 · 27 сентября 2018

Это можно сделать с помощью функции contrasts с загадочным именем.

Соответствующий раздел документов:

, если contrasts = FALSE возвращается матрица идентичности.

Итак, вот базовая реализация:

encode_onehot <- function(x, colname_prefix = "", colname_suffix = "") {
  if (!is.factor(x)) {
      x <- as.factor(x)
  }

  encoding_matrix <- contrasts(x, contrasts = FALSE)
  encoded_data <- encoding_matrix[as.integer(x)]

  colnames(encoded_data) <- paste0(colname_prefix, colnames(encoded_data), colname_suffix)

  encoded_data
}


df <- cbind(df, encode_onehot(df$subject, "subject_"))

Это довольно универсальное решение, не зависящее от других библиотек и должно быть достаточно быстрым, за исключением очень больших наборов данных.

R - Как горячее кодирование одного столбца, в то время как другие столбцы остаются неподвижными?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

R - Как горячее кодирование одного столбца, в то время как другие столбцы остаются неподвижными?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы