Склеарн SVM - как получить список неправильных прогнозов? - PullRequest
0 голосов
/ 06 сентября 2018

Я не опытный пользователь. Я знаю, что могу получить матрицу путаницы, но я хотел бы получить список строк, которые были неправильно классифицированы, чтобы изучить их после классификации.

В стеке потока я нашел это Могу ли я получить список неправильных прогнозов в функции оценки SVM в scikit-learn , но я не уверен, что все понял.

Это пример кода.

# importing necessary libraries
from sklearn import datasets
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

# loading the iris dataset
iris = datasets.load_iris()

# X -> features, y -> label
X = iris.data
y = iris.target

# dividing X, y into train and test data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)

# training a linear SVM classifier
from sklearn.svm import SVC
svm_model_linear = SVC(kernel = 'linear', C = 1).fit(X_train, y_train)
svm_predictions = svm_model_linear.predict(X_test)

# model accuracy for X_test  
accuracy = svm_model_linear.score(X_test, y_test)

# creating a confusion matrix
cm = confusion_matrix(y_test, svm_predictions)

Чтобы перебрать строки и найти неправильные, предлагаемое решение:

predictions = clf.predict(inputs)
for input, prediction, label in zip(inputs, predictions, labels):
  if prediction != label:
    print(input, 'has been classified as ', prediction, 'and should be ', label) 

Я не понял, что такое "вход" / "входы". Если я адаптирую этот код к своему коду, например:

for input, prediction, label in zip (X_test, svm_predictions, y_test):
  if prediction != label:
    print(input, 'has been classified as ', prediction, 'and should be ', label)

Я получаю:

[6.  2.7 5.1 1.6] has been classified as  2 and should be  1

Является ли строка 6 неправильной строкой? Какие цифры после 6.? Я спрашиваю об этом, потому что я использую тот же код в наборе данных, который больше этого, поэтому я хотел бы быть уверен, что я делаю правильные вещи. Я не публикую другой набор данных, потому что, к сожалению, не могу, но проблема в том, что я получил что-то вроде этого:

  (0, 253)  0.5339655767137572
  (0, 601)  0.27665553856928027
  (0, 1107) 0.7989633757962163 has been classified as  7 and should be  3
  (0, 885)  0.3034934766501018
  (0, 1295) 0.6432561790864061
  (0, 1871) 0.7029318585026516 has been classified as  7 and should be  6
  (0, 1020) 1.0 has been classified as  3 and should be  8

Когда я подсчитываю каждую строку этого последнего вывода, я получаю двойные строки набора тестов ... Так что я не уверен, что анализирую в точности неверный список предсказанных результатов ...

1 Ответ

0 голосов
/ 06 сентября 2018

Является ли строка 6 неправильной строкой? Какие цифры после 6.?

Нет - [6. 2.7 5.1 1.6] - это фактический образец (т. Е. Его особенности). Чтобы получить индекс неправильной строки, мы должны немного изменить цикл for:

for idx, input, prediction, label in zip(enumerate(X_test), X_test, svm_predictions, y_test):
    if prediction != label:
        print("No.", idx[0], 'input,',input, ', has been classified as', prediction, 'and should be', label) 

Результат теперь равен

No. 37 input, [ 6.   2.7  5.1  1.6] , has been classified as 2 and should be 1

Это означает, что X_test[37], то есть [ 6. 2.7 5.1 1.6], было предсказано нашим SVM как 2, тогда как его истинная метка равна 1.

Давайте подтвердим это:

X_test[37]
# array([ 6. ,  2.7,  5.1,  1.6])

svm_predictions[37]
# 2

y_test[37]
# 1

Этот результат согласуется с вашей матрицей путаницы cm, которая показывает действительно только одну неправильно классифицированную выборку в X_test:

cm
# result:
array([[13,  0,  0],
       [ 0, 15,  1],
       [ 0,  0,  9]], dtype=int64)

Более элегантный цикл for, поскольку в перечисление входят сами образцы, может быть:

for idx, prediction, label in zip(enumerate(X_test), svm_predictions, y_test):
    if prediction != label:
        print("Sample", idx, ', has been classified as', prediction, 'and should be', label) 

, что дает

Sample (37, array([ 6. ,  2.7,  5.1,  1.6])) , has been classified as 2 and should be 1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...