Итак, у меня есть DataFrame, который содержит смесь как Категориальных, так и Числовых значений, которые в настоящее время 12345
строк по 171
столбцам.
У меня пропущены значения как в переменной категории, так и в числовой, где я хотел бы рассчитать значения. Для числовых столбцов я делаю следующее:
import pandas as pd
import numpy as np
data = pd.read_csv('filepath')
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values=np.nan, strategy='mean', axis=0)
data = imp.fit_transform(data)
Я тогда получаю следующую ошибку
ValueError: could not convert string to float: 'USD'
Это я понимаю, потому что я использую sci-kit learn imputer с strategy = mean
, который не совместим с категориальными переменными. Я бы предпочел не проходить через каждый столбец и вручную извлекать числовые значения, поэтому я ищу способ, которым я могу выполнить это вычисление только для числовых столбцов.
Спасибо