Векторизованная линейная регрессия - PullRequest
0 голосов
/ 03 мая 2018

Вот моя попытка выполнить линейную регрессию, используя только numpy и линейную алгебру:

def linear_function(w , x , b):
    return np.dot(w , x) + b

x = np.array([[1, 1,1],[0, 0,0]])
y = np.array([0,1])

w = np.random.uniform(-1,1,(1 , 3))

print(w)
learning_rate = .0001

xT = x.T
yT = y.T

for i in range(30000):

    h_of_x = linear_function(w , xT , 1)
    loss = h_of_x - yT

    if i % 10000 == 0:
        print(loss , w)
    w = w + np.multiply(-learning_rate , loss)

linear_function(w , x , 1)

Это вызывает ошибку:

ValueError                                Traceback (most recent call last)
<ipython-input-137-130a39956c7f> in <module>()
     24     if i % 10000 == 0:
     25         print(loss , w)
---> 26     w = w + np.multiply(-learning_rate , loss)
     27 
     28 linear_function(w , x , 1)

ValueError: operands could not be broadcast together with shapes (1,3) (1,2) 

Похоже, это работает для уменьшения размерности тренировочного набора:

import numpy as np

def linear_function(w , x , b):
    return np.dot(w , x) + b

x = np.array([[1, 1],[0, 0]])
y = np.array([0,1])

w = np.random.uniform(-1,1,(1 , 2))

print(w)
learning_rate = .0001

xT = x.T
yT = y.T

for i in range(30000):

    h_of_x = linear_function(w , xT , 1)
    loss = h_of_x - yT

    if i % 10000 == 0:
        print(loss , w)
    w = w + np.multiply(-learning_rate , loss)

linear_function(w , x , 1)

print(linear_function(w , x[0] , 1))
print(linear_function(w , x[1] , 1))

Что возвращает:

[[ 0.68255806 -0.49717912]]
[[ 1.18537894  0.        ]] [[ 0.68255806 -0.49717912]]
[[ 0.43605474  0.        ]] [[-0.06676614 -0.49717912]]
[[ 0.16040755  0.        ]] [[-0.34241333 -0.49717912]]
[ 0.05900769]
[ 1.]

[ 0.05900769] & [ 1.] близки к обучающим примерам, поэтому кажется, что эта реализация верна. В чем проблема с реализацией, которая выдает ошибку? Я не реализовал расширение размерности от 2 -> 3 правильно?

1 Ответ

0 голосов
/ 03 мая 2018

Я обрисовал в общих чертах следующие проблемы:

  1. Ваши формы массива противоречивы. Это может привести к проблемам с вещанием / точками, особенно во время градиентного спуска. Исправьте вашу инициализацию. Я также рекомендовал бы увеличить w с b и X с помощью столбца единиц.

  2. Ваша функция потерь и расчет градиента не кажутся мне подходящими. В целом, использование манхэттенского расстояния в качестве функции потерь не рекомендуется, поскольку оно не является достаточным показателем расстояния. Я бы пошел с евклидовым расстоянием и попытался бы минимизировать сумму квадратов (это называется регрессия OLS ). Затем мы продолжим вычисление градиента следующим образом.

  3. ваше правило обновления будет соответственно изменяться в зависимости от (2).

  4. не забудьте установить условие остановки для вашего кода. Вы не хотите превышать оптимальное значение. Обычно вы должны остановиться, когда градиент не сильно меняется.

Полный список:

# input, augmented
x = np.array([[1, 1, 1], [0, 0, 0]])
x = np.column_stack((np.ones(len(x)), x))
# predictions
y = np.array([[0, 1]])   
# weights, augmented with bias
w = np.random.uniform(-1, 1, (1, 4))

learning_rate = .0001

loss_old = np.inf
for i in range(30000):  
    h_of_x = w.dot(x.T)
    loss = ((h_of_x - y) ** 2).sum()

    if abs(loss_old - loss) < 1e-5:
        break

    w = w - learning_rate * (h_of_x - y).dot(x)
    loss_old = loss

Другие рекомендации / улучшения

Далее рассмотрим использование регуляризации здесь. L1 (хребет) и L2 (лассо) являются хорошими альтернативами.

Наконец, существует решение для закрытой формы для линейной регрессии, которое гарантированно сходится с локальным оптимумом (градиентный спуск гарантирует только локальный оптимум). Это быстро, но вычислительно дорого (поскольку требует вычисления обратного). Смотрите компромиссы здесь .

w = y.dot(np.linalg.inv(x.dot(x.T)).dot(x))

Когда xT.x не является обратимым, вам нужно будет упорядочить.

Имейте в виду, что линейная регрессия может моделировать только линейные границы решения. Если вы уверены, что ваша реализация верна, и что ваша потеря все еще плоха, ваши данные могут не соответствовать текущему векторному пространству, поэтому вам потребуется нелинейная базисная функция для ее преобразования (это эффективно нелинейно регрессия).

...