Регрессия против классификации для проблемы, которая может быть решена обоими - PullRequest
1 голос
/ 16 октября 2019

У меня есть проблема, которую я рассматривал как проблему классификации. Я пытаюсь предсказать, пройдет ли машина определенный тест или провалит его, основываясь на ряде входных функций.

Что меня действительно интересует, так это то, что новая машина, по прогнозам, пройдет или не пройдёт тест. Он может пройти или не пройти тест, если определенные сигнатуры (например, скорость, вибрация и т. Д.) Выйдут за пределы диапазона.

Поэтому я могу либо:

1) Считать это чистой регрессией. проблема;попытаться предсказать фактические значения скорости, вибрации и т. д.

2) Рассматривать это как чисто проблему классификации;для каждого наблюдения укажите, прошло ли оно или нет на ярлыках, и попытайтесь предсказать это с помощью инструмента, который я создаю

3) Рассматривайте это как псевдо-проблему;где я предсказываю фактическое значение и получаю некоторую оценку того, насколько я уверен в том, что это проход или неудача на основе расстояния от порога прохождения / неудачи

Чтобы быть понятным;Я работаю над реальной проблемой. Я не заинтересован в получении сверхточного прогноза определенного значения, просто о том, предсказано ли, что машина пройдет или не пройдет (и бонусное продление; насколько вероятно, что это будет правдой).

Я работалс моделью классификации, поскольку у меня есть только пара сотен наблюдений, и некоторые предыдущие исследования показали, что это может быть лучшим способом решения проблемы. Однако сейчас мне интересно, правильно ли это делать.

Что бы вы сделали!?

Большое спасибо.

1 Ответ

0 голосов
/ 16 октября 2019

Без данных и выполнения классификации или регрессии сравнение будет трудным , поскольку метрика, которую вы используете для каждого семейства, отличается . Например, сравнение среднеквадратического среднеквадратичного отклонения регрессии с оценкой F1 (или точностью) задачи классификации было бы сравнением яблоко-апельсин.

Было бы идеально, если бы вы могли обучить хорошую модель регрессии (низкое среднеквадратичное значение)) потому что это дало бы вам больше информации, чем первоначальный вопрос о том, прошел или нет. Из моего прошлого опыта работы с промышленными клиентами:

Сначала , обучите все 3 упомянутые вами модели и затем представьте результаты своим клиентам и дайте им больше информации о том, какие модели / результаты более значимы для них.

...