У меня есть фрейм данных с 50 столбцами и 11000 строками, и я хочу прогнозировать зарплату.https://www.kaggle.com/kaggle/kaggle-survey-2018 так выглядят мои закодированные данные:
Сначала я произвел очистку данных, а затем их кодирование с помощью sklearn.моя целевая переменная - это зарплата (df ['Q9']), и я выбрал ее как 'y'.Таким образом, я назначил все остальные столбцы моего фрейма данных как 'x'.
y=df_encoded['Q9']
x=df_encoded.drop(['Q9'], axis=1)
y содержит целое число, а x содержит строки.Внутри информационного кадра нет NAN.код для тепловой карты:
f,ax = plt.subplots(figsize=(18, 18))
sns.heatmap(x.corr(), annot=True, linewidths=.5, fmt= '.1f',ax=ax)
Я хотел построить тепловую карту морского побережья, но получил эту ошибку:
----------------------------------------------------------------------
-----
ValueError Traceback (most recent call last)
<ipython-input-80-049cf9365602> in <module>()
1 f,ax = plt.subplots(figsize=(18, 18))
----> 2 sns.heatmap(x.corr(), annot=True, linewidths=.5, fmt= '.1f',ax=ax)
/usr/local/lib/python3.5/dist-packages/seaborn/matrix.py in heatmap(data, vmin, vmax, cmap, center, robust, annot, fmt, annot_kws, linewidths, linecolor, cbar, cbar_kws, cbar_ax, square, xticklabels, yticklabels, mask, ax, **kwargs)
515 plotter = _HeatMapper(data, vmin, vmax, cmap, center, robust, annot, fmt,
516 annot_kws, cbar, cbar_kws, xticklabels,
--> 517 yticklabels, mask)
518
519 # Add the pcolormesh kwargs here
/usr/local/lib/python3.5/dist-packages/seaborn/matrix.py in __init__(self, data, vmin, vmax, cmap, center, robust, annot, fmt, annot_kws, cbar, cbar_kws, xticklabels, yticklabels, mask)
166 # Determine good default values for the colormapping
167 self._determine_cmap_params(plot_data, vmin, vmax,
--> 168 cmap, center, robust)
169
170 # Sort out the annotations
/usr/local/lib/python3.5/dist-packages/seaborn/matrix.py in _determine_cmap_params(self, plot_data, vmin, vmax, cmap, center, robust)
205 calc_data = plot_data.data[~np.isnan(plot_data.data)]
206 if vmin is None:
--> 207 vmin = np.percentile(calc_data, 2) if robust else calc_data.min()
208 if vmax is None:
209 vmax = np.percentile(calc_data, 98) if robust else calc_data.max()
/resources/common/.virtualenv/python3/lib/python3.5/site-packages/numpy/core/_methods.py in _amin(a, axis, out, keepdims)
27
28 def _amin(a, axis=None, out=None, keepdims=False):
---> 29 return umr_minimum(a, axis, None, out, keepdims)
30
31 def _sum(a, axis=None, dtype=None, out=None, keepdims=False):
ValueError: zero-size array to reduction operation minimum which has no identity
Я искал эту ошибку и думаю, что мои данные должныстержень!но я понятия не имею, как это сделать и что это такое!