Question

Я создал логистическую c регрессионную модель, процесс обучения основан на стохастическом c градиентном спуске, поддерживаемом алгоритмами импульса и Адаграда. Когда я тренирую свою модель на наборе данных MNIST, я получаю довольно странные результаты, например:

Epoch 1: Accuracy = 0.8808703918876096 Cost = 1.9201423303296545
Epoch 2: Accuracy = 0.8718284567444808 Cost = 2.0658811067405587
Epoch 3: Accuracy = 0.8752086194148093 Cost = 2.011399321166389
Epoch 4: Accuracy = 0.8778704975176931 Cost = 1.9684949150267304
Epoch 5: Accuracy = 0.8881166156121263 Cost = 1.8033470025050278
Epoch 6: Accuracy = 0.8779338755677617 Cost = 1.9674733815472147
Epoch 7: Accuracy = 0.8759691560156333 Cost = 1.9991409194122003
Epoch 8: Accuracy = 0.8892996725467414 Cost = 1.7842783775540683
Epoch 9: Accuracy = 0.8799619731699588 Cost = 1.9347843102027125
Epoch 10: Accuracy = 0.8583078060631668 Cost = 2.2838082490372384

Как вы видите, моя модель не сходится, я пробовал различные значения скорости обучения и коэффициента импульса, но Я не нашел решения. Вышеуказанный результат предназначен для скорости обучения 0,1 и коэффициента импульса 0,9, поэтому это наиболее распространенная комбинация. Модель:

class Model(object):
    def __init__(self, learning_rate: float, epochs: int, momentum_coef=0.0):
        self.momentum_coef = momentum_coef
        self.learning_rate = learning_rate
        self.epochs = epochs
        self.epsilon = 1e-7
        self._w = np.zeros(1)
        self._velocity = np.zeros(1)
        self.grad_history_squared = 0

    def fit(self, X: np.ndarray , y: np.ndarray) -> None:
        """ Fitting weights to the data using stochasic gradient descent with momentum and Adagrad"""
        if X.shape[0] != self._w.shape[0]:
            self._w = np.random.random(X.shape[1])
        if X.shape[0] != self._velocity.shape[0]:
            self._velocity = np.zeros(X.shape[1])
        indexes = np.arange(y.shape[0])

        for epoch in range(self.epochs):
            np.random.shuffle(indexes)
            for i in indexes:
                xi, yi = X[i], y[i]
                gradient = (1/X.shape[1]) * (self.predict(xi) - yi)*xi
                self._velocity = self._velocity * self.momentum_coef + (1 - self.momentum_coef) * gradient
                self._w -= (self.learning_rate / np.sqrt(self.grad_history_squared + self.epsilon)) * self._velocity
                self.grad_history_squared += gradient**2
            print("Epoch {}: Accuracy = {} Cost = {}".format(epoch + 1, self.evaluate(self.predict(X), y),
                                                             self.compute_cost(X, y)))

    def predict(self, X: np.ndarray) -> np.ndarray:
        return np.round(self.sigmoid(X))

    def sigmoid(self, X: np.ndarray) -> np.ndarray:
        return 1/(1 + np.exp(-self._w @ X.T + self.epsilon))

    def compute_cost(self, X: np.ndarray, y: np.ndarray) -> float:
        y_pred = self.predict(X)
        return -np.average(y * np.log(y_pred + self.epsilon) + (1 - y) * np.log(1 - y_pred + self.epsilon))

    @staticmethod
    def evaluate(y_true: np.ndarray, y_pred: np.ndarray) -> float:
        """ Evaluating accuracy"""
        return (len(y_true) - np.sum(np.abs(y_pred - y_true))) / len(y_true)

Конечно, я предоставляю масштабированные данные для процесса обучения. Что может быть не так? Моя реализация правильная?

Логистика c регрессия не сходится

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Логистика c регрессия не сходится

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы