Какие данные построить, чтобы узнать, какая модель лучше всего подходит для задачи? - PullRequest
0 голосов
/ 12 января 2020

Извините, я знаю, что это очень простой вопрос c, но, поскольку я все еще новичок в машинном обучении, определение модели, которая лучше всего подходит для моей задачи, все еще смущает меня, в последнее время я использовал линейный регрессионная модель (в результате чего r2_score настолько низок), и пользователь упомянул, что я мог бы использовать определенную модель в соответствии с кривой графика моих данных, и когда я вижу, что другой кодер использует случайный регрессор леса (в результате чего r2_score 30% лучше чем модель линейной регрессии), и я не знаю, как, черт возьми, он / она знает лучшую модель, так как он / она не упоминает об этом. Я имею в виду, что на большинстве сайтов, которые я читаю, они помещают данные в некоторые модели, которые, по их мнению, лучше всего подойдут для этой проблемы (пример: для проблемы регрессии модели могут использовать линейную регрессию или случайный лесной регрессор), но на некоторых сайтах и ​​в некоторых Сначала люди сказали, что нам нужно построить данные, чтобы мы могли предсказать, какая именно модель подходит лучше всего. Я действительно не знаю, какую часть данных я должен построить? Я думал, что использование seaborn pairplot даст мне понимание формы кривой, но я сомневаюсь, что это правильный путь, что я должен на самом деле построить? только сам лейбл или сам функционал или оба? и как я могу получить представление о кривой, чтобы узнать возможную лучшую модель после этого?

Ответы [ 2 ]

1 голос
/ 12 января 2020

Этот вопрос слишком общий, но я постараюсь дать обзор того, как выбрать модель. Прежде всего, следует учесть, что не существует общего правила выбора семейства моделей для использования, оно больше выбирается путем экспериментального анализа другой модели и определения того, какая из них дает лучшие результаты. Теперь вам также следует иметь в виду, что в целом у вас есть многомерные объекты, поэтому построение графиков данных не даст вам полного представления о зависимости ваших объектов от цели, однако, чтобы проверить, хотите ли вы соответствовать линейной модели или нет, вы может начать построение цели против каждого измерения ввода и посмотреть, есть ли какая-то линейная зависимость. Однако я бы порекомендовал вам подобрать линейную модель и проверить, является ли она релевантной со статистической точки зрения (тест Стьюдента, тест Смирнова, проверить остатки ...). Обратите внимание, что в реальных приложениях, не похоже, что линейная регрессия будет лучшей моделью, если вы не будете много заниматься инжинирингом. Поэтому я бы порекомендовал вам использовать более продвинутые методы (RandomForests, XGboost ...)

0 голосов
/ 13 января 2020

Если вы используете готовые пакеты, такие как sklearn, то многие простые модели, такие как SVM, RF и т. Д. c, являются однострочными, поэтому на практике мы обычно пробуем несколько таких моделей на в то же время.

...