Я пытаюсь реализовать алгоритм машинного обучения для прогнозирования цен на жилье в Нью-Йорке.
Теперь, когда я пытаюсь построить (используя Seaborn ) взаимосвязь между двумя столбцами моего набора данных о ценах на жилье: 'gross_sqft_thousands' (общая площадь имущества в тысячах квадратных футов) и целевой столбец, который является 'sale_price_millions', я получаю странный график, подобный этому:
Код, используемый для построения:
sns.regplot(x="sale_price_millions", y="gross_sqft_thousands", data=clean_df);
Когда я пытаюсь построить график зависимости количества коммерческих единиц (столбец commercial_units) от sale_price_millions, я получаю странный график, подобный этому:
Эти странные графики, хотя в матрице корреляции sale_price очень хорошо коррелируют с обеими переменными (gross_sqft_thousands и commercial_units).
Что я делаю не так, и что я должен делать, чтобы получить отличный сюжет с меньшим количеством точек и четкой подгонкой, как этот сюжет:
Вот часть моего набора данных: