Выбор данных - поиск связей между атрибутами данных - PullRequest
0 голосов
/ 20 декабря 2018

скажем, у меня есть кадр данных из 80 столбцов и 1 целевого столбца, например таблица банковского счета с 80 атрибутами для каждой записи (учетной записи) и 1 целевой столбец, который решает, останется ли клиент или уйдет.Какие шаги и алгоритмы я должен следовать, чтобы выбрать наиболее эффективные столбцы с наибольшим влиянием на целевой столбец?

Ответы [ 2 ]

0 голосов
/ 31 декабря 2018

Это один из способов сделать это с помощью коэффициента корреляции Пирсона в Rstudio, я использовал его один раз, когда исследовал набор данных red_wine, моей целевой переменной или столбцом было качество, и я хотел узнать, как влияют на него остальные столбцы.см. рисунок ниже показывает выходные данные кода, поскольку вы видите, что синий цвет представляет положительное отношение, а красный представляет отрицательные отношения, и чем ближе значение к 1 или -1, тем темнее цвет code output

c <- cor(
      red_wine %>%
        # first we remove unwanted columns
        dplyr::select(-X) %>%
        dplyr::select(-rating) %>%
        mutate(
          # now we translate quality to a number
          quality = as.numeric(quality)
        )
    )

    corrplot(c, method = "color", type = "lower", addCoef.col = "gray", title = "Red Wine Variables Correlations", mar=c(0,0,1,0), tl.cex = 0.7, tl.col = "black", number.cex = 0.9)
0 голосов
/ 27 декабря 2018

Есть несколько шагов, которые вы можете предпринять, я приведу несколько примеров, чтобы вы могли начать:

  1. Коэффициент корреляции, такой как Пирсона Rho (для параметрических данных) или R Спирмена (для данных по ординате).
  2. Значения функций.Мне нравится XGBoost для этого, так как он включает в себя удобные xgb.ggplot.importance / xgb.plot_importance методы.
  3. Один из многих вариантов выбора функций, например, sklearn.feature_selection в Python.
...