современные алгоритмы классификации - PullRequest
6 голосов
/ 27 февраля 2011

Мы знаем, что существует около тысячи классификаторов, недавно мне сказали, что некоторые люди говорят, что adaboost похоже на из оболочки .

  • Существуют ли лучшие алгоритмы (с этой идеей голосования)
  • Каков уровень техники в классификаторах. У вас есть пример?

Ответы [ 5 ]

6 голосов
/ 27 февраля 2011

Во-первых, adaboost - это мета-алгоритм, который используется вместе с (сверху) вашим любимым классификатором. Во-вторых, классификаторы, которые хорошо работают в одной проблемной области, часто не работают в другой. См. Страницу Нет бесплатного обеда в Википедии. Таким образом, не будет никакого ответа на ваш вопрос. Тем не менее, было бы интересно узнать, что люди используют на практике.

3 голосов
/ 10 марта 2011

Weka и Mahout - не алгоритмы ... это библиотеки машинного обучения. Они включают в себя реализации широкого спектра алгоритмов. Поэтому лучше всего выбрать библиотеку и попробовать несколько разных алгоритмов, чтобы увидеть, какой из них лучше всего подходит для вашей конкретной задачи (где «лучше всего работает» будет зависеть от стоимости обучения, стоимости классификации и точности классификации).

Если бы это был я, я бы начал с наивного Байеса, k-ближайших соседей и машин опорных векторов. Они представляют собой устоявшиеся, хорошо понятые методы с очень разными компромиссами. Наивный байесовский дешевый, но не особо точный. K-NN дешев во время тренировок, но (может быть) дорог во время классификации, и, хотя он обычно очень точен, он может быть подвержен перетренированности. SVM дороги в обучении и имеют множество мета-параметров для настройки, но они дешевы в применении и, как правило, по крайней мере так же точны, как k-NN.

Если вы расскажете нам больше о проблеме, которую вы пытаетесь решить, мы сможем дать более конкретный совет. Но если вы просто ищете Один Истинный Алгоритм, его нет - теорема об отсутствии бесплатного обеда гарантирует это.

2 голосов
/ 28 февраля 2011

Weka - очень популярная и стабильная библиотека для машинного обучения.Это было давно и написано в Java.

2 голосов
/ 28 февраля 2011

Apache Mahout (с открытым исходным кодом, Java), кажется, набирает много пара.

1 голос
/ 16 апреля 2016

Hastie et al.(2013, Элементы статистического обучения) пришли к выводу, что машина повышения градиента является лучшим "готовым" методом.Независимо от вашей проблемы.Определение (см. Стр. 352): «готовый» метод - это метод, который можно напрямую применять к данным, не требуя значительных временных затрат на предварительную обработку данных или тщательной настройки процедуры обучения.

Инемного более старое значение: На самом деле, Брейман (NIPS Workshop, 1996) назвал AdaBoost с деревьями как «лучший готовый классификатор в мире» (см. также Брейман (1998)).

...