У меня есть набор данных, который состоит из 13 столбцов и около 10 миллионов строк. Частью моего проекта является использование изолированного леса, эллиптического c конверта и K-среднего значения для обнаружения и устранения выбросов. Я пытаюсь использовать K-mean, но каждый раз, когда я запускаю код, ничего не происходит с файлом CSV, я делаю что-то не так?
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
df = pd.read_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\5-FINAL2\\Final After Simple Filtering.csv')
KMEAN = KMeans( n_clusters=100)
df['anomaly'] = KMEAN.fit_predict(df)
df = df[df['anomaly'] != -1]
del df['anomaly']
df.to_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\K TEST.csv', index=False)
Спасибо.