Определение точности и удаленных функций с помощью AutoML (ml.net) - PullRequest
0 голосов
/ 08 июля 2019

Я играл с ML.Net AutoML и получал от этого удовольствие. У меня все еще есть вопросы, и я надеюсь, что кто-то из них может помочь или направить меня в правильном направлении.

Вопрос 1: У меня есть обученная двоичная классификационная модель из AutoML. Это привело к появлению 5 лучших алгоритмов, основанных на высокой точности, и я получил двоичную модель классификации SdcaLogisticRegressionBinary с точностью 89%.

Теперь, когда я делаю свою оценку, точность падает до 84%. Означает ли это, что оригинальная тренировочная модель была переоснащена на 5%? Справедливо ли будет сказать, что точность моей модели не 89%, а 84% на основе оценки?

Вопрос 2: AutoML также отбрасывает функции во время обучения, где это необходимо. Есть ли способ получить фактический список функций, который был включен в окончательную модель, например, определить, какие функции были отброшены и не улучшили точность модели?

Когда я проверяю окончательную модель, OutputSchema всегда включает все функции, основанные на начальных данных обучения.

1 Ответ

1 голос
/ 08 июля 2019

Означает ли это, что оригинальная тренировочная модель была переобучена на 5%?

Эта терминология ничего не говорит и никогда не используется.К сожалению, в настоящее время термин «переоснащение» - это термин, которому часто злоупотребляют, он означает почти все, что связано с неоптимальной производительностью;тем не менее, практически говоря, переоснащение означает нечто очень специфичное : его контрольная сигнатура - это когда ваша потеря при проверке начинает расти, а ваша потеря при обучении продолжает уменьшаться, то есть:

enter image description here

5-процентный «запас» между вашей подготовкой и точностью проверки - это совсем другая история (она называется разрыв в обобщении ), и не означает переобучение.

Было бы справедливо сказать, что точность моей модели не 89%, а на самом деле 84% на основе оценки?

Как вы уже, вероятно, подозревали«точность» сама по себе является неоднозначным термином;правда заключается в том, что на практике при использовании без какого-либо другого обозначения обычно подразумевается точность проверки (практически никто не беспокоится о точном значении точности обучения).В любом случае, правильный отчет о ваших результатах будет - точность обучения 89%, точность проверки 85%.

...