Хорошо, у меня есть следующий код:
# group by Sex, Pclass, and Title
grouped = titanic.groupby(['Sex','Pclass', 'Title'])
# view the median Age by the grouped features
grouped.Age.median()
grouped.describe(include="all")
# apply the grouped median value on the Age NaN
titanic.Age = grouped.Age.apply(lambda x: x.fillna(x.median()))
Это основано на соревновании Титаника в kaggle, и этот код заполняет Age медианой сгруппированных по возрастам Pclass, Sex и Title.
Вот моя проблема: если я хочу использовать перекрестную проверку, как мне их заполнить.Я имею в виду, что при перекрестной проверке мы должны помнить, что для интерполяции должны использоваться только значения поездов, но я не знаю, будет ли при использовании конвейера использоваться только значения поездов или все значения.
Спасибо!