У меня есть большой набор данных из более 100 столбцов, из которого я хочу автоматически удалять низкокоррелированные объекты по сравнению с целью, поэтому я могу исключить объекты с нулевой важностью.
Я запускаю Python 3.5 на ноутбуке Jupyterи уже удалил сильно коррелированные сопутствующие функции.
Я пробовал пока что-то вроде этого:
corr = train.corr().abs()
columns = np.full((corr.shape[0],), True, dtype=bool)
for i in range(corr.shape[0]):
# Here I want compare a feature to my target
if corr.iloc[i,'Target'] >= 0.2:
if columns[i]:
columns[i] = False
selected_columns = train.columns[columns]
train = train[selected_columns]
Помощь с кодом будет приветствоваться.Спасибо.