проектирование задачи классификации погодных данных - PullRequest
1 голос
/ 20 февраля 2011

В обычной задаче классификации 2 или нескольких классов мы можем использовать любой известный алгоритм машинного обучения, такой как Наивный Байес или SVM, для обучения и тестирования модели.Моя проблема в том, что мне дали данные о погоде, где переменная метки имеет формат «20% дождя, 80% сухости» или «30% облачно, 70% дождя» и т. Д. Как мне решить эту проблему?Нужно ли как-то преобразовывать проблему в регрессию?В этом случае, если в данных есть три метки (дождевая, сухая, облачная), какой может быть правильный подход для преобразования процентной информации в непрерывные значения? Спасибо за ваше время

Ответы [ 2 ]

1 голос
/ 21 февраля 2011

Предполагая, что выражения "20% дождь, 80% сухой" и "30% облачно, 70% дождь" представляют вероятности того, что классы являются взаимоисключающими и что мы можем игнорировать возможные порядковые отношения (такие как "сухой> облачно> дождь ") среди них такие модели, как полихотомическая логистическая регрессия, могут соответствовать этим значениям, как если бы они были сгруппированы или реплицированы.

Полагаю, можно использовать и другие, специальные процедуры, которые минимизируют, например, расхождение Кульбака-Лейблера.

1 голос
/ 20 февраля 2011

Я бы рекомендовал нейронную сеть с тремя выходами меток Rain, Dry, Cloud.

Если у вас есть данные с меткой "20% дождь", то вес экземпляра будет 0,2.Если метка «дождь» отсутствует, то она должна содержать «false».Другой подход состоит в том, чтобы использовать 3 различных регрессионных классификатора с одинаковым соглашением о конвертации.Я думаю, что регрессия будет работать лучше.

Нейронные сети будут хорошим выбором, потому что они могут выполнять все три регрессии / классификации одновременно и могут влиять друг на друга.Кроме того, алгоритм обучения прост.

...