Разница обусловлена округлением lambdas
в функции preProcess
, округленной до одного десятичного знака.
Проверьте этот пример:
library(caret)
library(recipes)
library(MASS)
library(mlbench)
data(Sonar)
df <- Sonar[,-61]
с использованием preProcess
функция и установка fudge
в 0 (нет допусков для 0/1 приведения лямбд).
z2 <- preProcess(x = as.data.frame(df), method = c('BoxCox'), fudge = 0)
и использование recepies
:
z <- recipe(~ ., data = as.data.frame(df )) %>%
step_BoxCox(., everything()) %>%
prep(., training = as.data.frame(df))
позволяет проверить лямбда-выраженияrecepies
:
z$steps[[1]]$lambdas
#output
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0.09296796 0.23383117 0.19487939 0.11471259 0.18688851 0.35852835 0.48787887 0.36830343 0.26340880 0.29810673 0.33913896 0.50361765
V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24
0.49178396 0.35997958 0.43900093 0.28981749 0.22843441 0.27016373 0.50573719 0.83436868 1.02366629 1.15194335 1.35062142 1.44484148
V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 V35 V36
1.51851127 1.61365888 1.47445453 1.44448827 1.22132457 1.00145613 0.66343491 0.61951328 0.53028496 0.45278118 0.39019507 0.37536033
V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57
0.28428050 0.23439217 0.29554367 0.47263000 0.34455069 0.44036919 0.15240917 0.30314637 0.28647186 0.16202628 0.27153385 0.17005357
V58 V59 V60
0.15688906 0.28761156 0.06652761
и лямбды для preProcess
:
sapply(z2$bc, function(x) x$lambda)
#output
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34
0.1 0.2 0.2 0.1 0.2 0.4 0.5 0.4 0.3 0.3 0.3 0.5 0.5 0.4 0.4 0.3 0.2 0.3 0.5 0.8 1.0 1.2 1.4 1.4 1.5 1.6 1.5 1.4 1.2 1.0 0.7 0.6 0.5 0.5
V35 V36 V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57 V58 V59 V60
0.4 0.4 0.3 0.2 0.3 0.5 0.3 0.4 0.2 0.3 0.3 0.2 0.3 0.2 0.2 0.3 0.1
Итак:
df$V1^z$steps[[1]]$lambdas[1]
не равно
df$V1^sapply(z2$bc, function(x) x$lambda)[1]
По умолчанию fudge = 0.2
разница будет еще выше, поскольку -0.2 - 02
будет изменено на 0
, то есть преобразование log
, а 0.8 - 1.2
лямбда будет заменено на 1
- без преобразования.
Я бы не стал беспокоиться об этих различиях, обе функции уменьшат асимметрию данных.Только не смешивайте их в одном тренировочном конвейере.
Также, чтобы получить более объективные оценки производительности, эти преобразования следует выполнять во время повторной выборки, а не перед ней, чтобы избежать утечки данных.