Является ли эта модель классификации более - PullRequest
0 голосов
/ 03 октября 2019

Я выполняю классификацию URL (фишинг - не фишинг), и я построил кривые обучения (тренировка или оценка перекрестной проверки) для моей модели (повышение градиента).

My View

Кажется, что эти две кривые сходятся, и разница не является существенной. Это нормально для тренировочного набора, чтобы иметь немного более высокую точность). (рисунок 1)

Gradient boost learning curves

Вопрос

У меня ограниченный опыт вмашинное обучение, поэтому я спрашиваю ваше мнение. Правильно ли я подхожу к проблеме? У этой модели все в порядке или она переоснащается?

Примечание: классы сбалансированы и функции хорошо выбраны

Соответствующий код

from yellowbrick.model_selection import LearningCurve

def plot_learning_curves(Χ, y, model):

       # Create the learning curve visualizer
       cv = StratifiedKFold(n_splits=5)
       sizes = np.linspace(0.1, 1.0, 8)
       visualizer = LearningCurve(model, cv=cv, train_sizes=sizes, n_jobs=4)
       visualizer.fit(Χ, y)  # Fit the data to the visualizer
       visualizer.poof()

1 Ответ

1 голос
/ 03 октября 2019

Во-первых, в вашем графике есть 8 различных моделей.

Трудно сказать, является ли одна из них переобучением, потому что переобучение можно обнаружить с помощью графика "эпоха против производительности (поезд / действительный)" (тамв вашем случае будет 8).

Переоснащение означает, что после определенного количества эпох с увеличением количества эпох точность обучения повышается, а точность проверки снижается. Это может иметь место, например, когда у вас слишком мало данных о сложности вашей проблемы, поэтому ваша модель использует ложные корреляции.

С вашим графиком мы можем сказать, что сложностьПохоже, что ваша проблема требует «большого» числа или обучающих экземпляров, потому что ваша эффективность проверки продолжает увеличиваться по мере добавления большего количества обучающих экземпляров. Существует вероятность того, что модель с <10000 перегружена, но у вас> 50000 тоже может быть перерасход, и мы не видим этого, потому что вы используете ранний останов!

Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...