Параметры алгоритма kNN с использованием перекрестной проверки - PullRequest
0 голосов
/ 31 марта 2019

Я использую алгоритм машинного обучения kNN, и вместо того, чтобы разделять набор данных на 66,6% для обучения и 33,4% для тестов, мне нужно использовать перекрестную проверку со следующими параметрами: K = 3,1 / евклидов .

K = 3 не имеет загадки, я просто добавляю к коду:

Classifier = KNeighborsClassifier(n_neighbors=3, p=2, metric='euclidean') 

и все решаемо.Что я не могу понять, это 1 / евклидов , и как я могу применить это к коду?

import pandas as pd
import time
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn import metrics

def openfile():
   df = pd.read_csv('Testfile - kNN.csv')

   return df


def main():

   start_time = time.time()
   dataset = openfile()

   X = dataset.drop(columns=['Label'])
   y = dataset['Label'].values

   X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

   Classifier = KNeighborsClassifier(n_neighbors=3, p=2, metric='euclidean')
   Classifier.fit(X_train, y_train)

   y_pred_class = Classifier.predict(X_test)

   score = cross_val_score(Classifier, X, y, cv=10)

   y_pred_prob = Classifier.predict_proba(X_test)[:, 1]

   print("accuracy_score:", metrics.accuracy_score(y_test, y_pred_class),'\n')

   print("confusion matrix")
   print(metrics.confusion_matrix(y_test, y_pred_class),'\n')

   print("Background precision score:", metrics.precision_score(y_test, y_pred_class, labels=['background'], average='micro')*100,"%")
   print("Botnet precision score:", metrics.precision_score(y_test, y_pred_class, labels=['bot'], average='micro')*100,"%")
   print("Normal precision score:", metrics.precision_score(y_test, y_pred_class, labels=['normal'], average='micro')*100,"%",'\n')

   print(metrics.classification_report(y_test, y_pred_class, digits=2),'\n')
   print(score,'\n')
   print(score.mean(),'\n')


   print("--- %s seconds ---" % (time.time() - start_time))

1 Ответ

2 голосов
/ 01 апреля 2019

Вы можете создать свою собственную функцию и передать ее как вызываемую для metric param.

Создайте свою функцию примерно так:

from scipy.spatial import distance
def inverse_euc(a,b):
    return 1/distance.euclidean(a, b)

Теперь используйте его как callable в вашей функции KNN:

Classifier = KNeighborsClassifier(algorithm='ball_tree',n_neighbors=3, p=2, metric=inverse_euc)
...