У меня есть набор данных с 2 параметрами, который выглядит примерно так (я добавил графики контуров плотности):
Моя цель состоит в том, чтобы разделить этот образец на 2 подмножества следующим образом:
Это изображение взято с ГАШЕНИЕ ФОРМИРОВАНИЯ ЗВЕЗДЫ В ГРУППАХ SDSS: ЦЕНТРАЛЫ, СПУТНИКИ И ГАЛАКТИЧЕСКОЕ СООТВЕТСТВИЕ, Knobel et. al., Astrophysical Journal, 800: 24 (20pp), 2015, февраль, 1 , доступно здесь .
линия разделения нарисована на глаз и не идеальна.
Мне нужно что-то вроде красной линии (максимизация расстояний) на этом хорошем графике Википедии:
К сожалению, все линейные классификации, которые кажутся близкими к тому, что я ищу (SVM, SVC и т. Д.), Являются обучением под наблюдением.
Я пробовал обучение без учителя, как кластеры KMeans 2, таким образом (CompactSFR[['lgm_tot_p50','sSFR']]
- набор данных Pandas, который вы можете найти в конце этого поста):
X = CompactSFR[['lgm_tot_p50','sSFR']]
from sklearn.cluster import KMeans
kmeans2 = KMeans(n_clusters=2)
# Fitting the input data
kmeans2 = kmeans2.fit(X)
# Getting the cluster labels
labels2 = kmeans2.predict(X)
# Centroid values
centroids = kmeans2.cluster_centers_
f, (ax1,ax2) = plt.subplots(nrows=1, ncols=2, figsize=(10, 5), sharey=True)
ax1.scatter(CompactSFR['lgm_tot_p50'],CompactSFR['sSFR'],c=labels2);
X2 = kmeans2.transform(X)
ax1.set_title("Kmeans 2 clusters", fontsize=15)
ax1.set_xlabel('$\log_{10}(M)$',fontsize=10) ;
ax1.set_ylabel('sSFR',fontsize=10) ;
f.subplots_adjust(hspace=0)
но классификация, которую я получаю, такова:
Что не работает.
Кроме того, я хочу не простую классификацию, а уравнение линии разделения (которая, очевидно, сильно отличается от линейной регрессии).
Я бы хотел избежать разработки байесовской модели максимальной вероятности, если что-то уже существует.
Вы можете найти небольшой образец (959 баллов) здесь .
Примечание: этот вопрос не соответствует моему случаю.