Функциональная маржа говорит нам, насколько SVM уверен в своей классификации, для больших значений это лучше, чем для маленьких. Теперь возникает вопрос, почему мы не можем сделать w
и b
сколь угодно большими? Моя книга предполагает, что причина этого в том, что в конце SVM может хорошо классифицировать обучающий набор, но он не может обобщать, поэтому мы должны упорядочить выражение, разделив его на норму w
. Это объяснение я не совсем понял, то есть я понял, что:
x + 1 и 2x + 2 - это один и тот же вектор, только масштабируется по-разному, но насколько это важно здесь? Одна вещь, которая приходит на ум, - это то, что у нас должны быть одинаковые w
и b
для одного и того же вектора, поскольку для них не имеет смысла быть разными значениями, и, возможно, в наборе тестовых данных мы могли бы иметь одинаковые вектор, который масштабируется по-разному, но не должен иметь значения.
Но как и почему это будет плохо обобщаться?