Лечение посторонних в писпарке - PullRequest
0 голосов
/ 20 ноября 2018

В моих данных есть выбросы, которые я не хочу удалять.Итак, я заменяю их 5-процентным и 95-процентным.Я хочу выполнить эту процедуру только для нескольких столбцов в моем dataframe.my. В dataframe df есть столбцы a, b, c, d, e, f

d = {}

colslist = ['a','c','d']
for col in colslist:
      d[col] = df.approxQuantile(col,[0.05,0.95],0.25)
      print(col+" done")

Теперь только для a, c и d, я хочучтобы заменить выбросы на 5 процентилей и 95 процентилей

в R, мы делаем это следующим образом:

fun <- function(x){
    quantiles <- quantile( x, c(.05, .95 ) )
    x[ x < quantiles[1] ] <- quantiles[1]
    x[ x > quantiles[2] ] <- quantiles[2]
    x
}
fun( yourdata )
...