Question

Извините, я знаю, что это очень простой вопрос c, но, поскольку я все еще новичок в машинном обучении, определение модели, которая лучше всего подходит для моей задачи, все еще смущает меня, в последнее время я использовал линейный регрессионная модель (в результате чего r2_score настолько низок), и пользователь упомянул, что я мог бы использовать определенную модель в соответствии с кривой графика моих данных, и когда я вижу, что другой кодер использует случайный регрессор леса (в результате чего r2_score 30% лучше чем модель линейной регрессии), и я не знаю, как, черт возьми, он / она знает лучшую модель, так как он / она не упоминает об этом. Я имею в виду, что на большинстве сайтов, которые я читаю, они помещают данные в некоторые модели, которые, по их мнению, лучше всего подойдут для этой проблемы (пример: для проблемы регрессии модели могут использовать линейную регрессию или случайный лесной регрессор), но на некоторых сайтах и в некоторых Сначала люди сказали, что нам нужно построить данные, чтобы мы могли предсказать, какая именно модель подходит лучше всего. Я действительно не знаю, какую часть данных я должен построить? Я думал, что использование seaborn pairplot даст мне понимание формы кривой, но я сомневаюсь, что это правильный путь, что я должен на самом деле построить? только сам лейбл или сам функционал или оба? и как я могу получить представление о кривой, чтобы узнать возможную лучшую модель после этого?

hola · Answer 1 · 12 января 2020

Этот вопрос слишком общий, но я постараюсь дать обзор того, как выбрать модель. Прежде всего, следует учесть, что не существует общего правила выбора семейства моделей для использования, оно больше выбирается путем экспериментального анализа другой модели и определения того, какая из них дает лучшие результаты. Теперь вам также следует иметь в виду, что в целом у вас есть многомерные объекты, поэтому построение графиков данных не даст вам полного представления о зависимости ваших объектов от цели, однако, чтобы проверить, хотите ли вы соответствовать линейной модели или нет, вы может начать построение цели против каждого измерения ввода и посмотреть, есть ли какая-то линейная зависимость. Однако я бы порекомендовал вам подобрать линейную модель и проверить, является ли она релевантной со статистической точки зрения (тест Стьюдента, тест Смирнова, проверить остатки ...). Обратите внимание, что в реальных приложениях, не похоже, что линейная регрессия будет лучшей моделью, если вы не будете много заниматься инжинирингом. Поэтому я бы порекомендовал вам использовать более продвинутые методы (RandomForests, XGboost ...)

Tracy Chen · Answer 2 · 13 января 2020

Если вы используете готовые пакеты, такие как sklearn, то многие простые модели, такие как SVM, RF и т. Д. c, являются однострочными, поэтому на практике мы обычно пробуем несколько таких моделей на в то же время.

Какие данные построить, чтобы узнать, какая модель лучше всего подходит для задачи?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какие данные построить, чтобы узнать, какая модель лучше всего подходит для задачи?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы