неоднозначность использования настроенного ядра для регрессора `sklearn.svm` - PullRequest
0 голосов
/ 18 апреля 2019

Я хочу использовать настроенную функцию ядра в Epsilon-Support Vector Regression модуле Sklearn.svm.Я нашел этот код в качестве примера для настроенного ядра для svc на в документации scilit-learn :

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features. We could
                  # avoid this ugly slicing by using a two-dim dataset
Y = iris.target


def my_kernel(X, Y):
    """
    We create a custom kernel:

                 (2  0)
    k(X, Y) = X  (    ) Y.T
                 (0  1)
    """
    M = np.array([[2, 0], [0, 1.0]])
    return np.dot(np.dot(X, M), Y.T)


h = .02  # step size in the mesh

# we create an instance of SVM and fit out data.
clf = svm.SVC(kernel=my_kernel)
clf.fit(X, Y)

# Plot the decision boundary. For that, we will assign a color to each
# point in the mesh [x_min, x_max]x[y_min, y_max].
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

# Put the result into a color plot
Z = Z.reshape(xx.shape)
plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired)

# Plot also the training points
plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm.Paired, edgecolors='k')
plt.title('3-Class classification using Support Vector Machine with custom'
      ' kernel')
plt.axis('tight')
plt.show()

Я хочу определить некоторые функции, такие как:

def my_new_kernel(X):
    a,b,c = (random.randint(0,100) for _ in range(3))
    # imagine f1,f2,f3 are functions like sin(x), cos(x), ...
    ans = a*f1(X) + b*f2(X) + c*f3(X)
    return ans

Что я думал о методе ядра , так это о том, что это функция, которая получает матрицу признаков (X) в качестве входных данных и возвращает матрицу формы (n, 1).Затем svm добавляет возвращенную матрицу к столбцам объектов и использует ее для классификации меток Y.

* 1029.* В приведенном выше коде ядро ​​используется в функции svm.fit, и я не могу понять , что такое X и Y входные данные ядра и их формы .если X и Y (входные данные метода my_kernel) являются функциями и меткой набора данных, то как же тогда ядро ​​работает с тестовыми данными, где у нас нет меток?

На самом деле я хочуиспользуйте svm для набора данных с формой (10000, 6), (5 столбцов = объекты, 1 столбец = метка), а затем, если я хочу использовать метод my_new_kernel, какие будут входные и выходные данные и их формы.

1 Ответ

1 голос
/ 18 апреля 2019

Ваша точная проблема совершенно неясна; Вот некоторые замечания, которые могут быть полезны.

Я не могу понять, каковы X и Y входы ядра и их формы. если X и Y (входные данные метода my_kernel) являются функциями и меткой набора данных,

Действительно, они есть; из документации из fit:

Параметры:

X: {массивоподобная, разреженная матрица}, форма (n_samples, n_features)

Обучающие векторы, где n_samples - это количество выборок, а n_features - это количество признаков. Для ядра = "предварительно вычислено", ожидаемая форма X - (n_samples, n_samples).

y: массив, форма (n_samples,)

Целевые значения (метки классов в классификации, действительные числа в регрессии)

точно так же, как и для доступных по умолчанию ядер.

так как же тогда ядро ​​работает с тестовыми данными, где у нас нет меток?

При внимательном рассмотрении предоставленного вами кода вы обнаружите, что метки Y действительно используются только во время обучения (fit); они, конечно, не используются во время прогнозирования (clf.predict() в приведенном выше коде - не путайте с yy, который не имеет ничего общего с Y).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...