Как заполнить пропущенные значения моим собственным алгоритмом при использовании перекрестной проверки с пандами - PullRequest
0 голосов
/ 26 февраля 2019

Хорошо, у меня есть следующий код:

# group by Sex, Pclass, and Title
grouped = titanic.groupby(['Sex','Pclass', 'Title'])
# view the median Age by the grouped features
grouped.Age.median()

grouped.describe(include="all")
# apply the grouped median value on the Age NaN
titanic.Age = grouped.Age.apply(lambda x: x.fillna(x.median()))

Это основано на соревновании Титаника в kaggle, и этот код заполняет Age медианой сгруппированных по возрастам Pclass, Sex и Title.

Вот моя проблема: если я хочу использовать перекрестную проверку, как мне их заполнить.Я имею в виду, что при перекрестной проверке мы должны помнить, что для интерполяции должны использоваться только значения поездов, но я не знаю, будет ли при использовании конвейера использоваться только значения поездов или все значения.

Спасибо!

...