Я пытаюсь классифицировать пример, который содержит дискретные и непрерывные функции. Кроме того, в примере представлены разреженные данные, поэтому, хотя система может быть обучена использованию 100 функций, в примере может быть только 12.
Какой алгоритм классификатора лучше всего использовать для достижения этой цели? Я смотрел на Байеса, Максента, Decision Tree и KNN, но я не уверен, что они точно соответствуют требованиям. Самым большим камнем преткновения, который я обнаружил, является то, что большинство реализаций не поддерживают разреженные наборы данных и как дискретные, так и непрерывные функции. Кто-нибудь может порекомендовать алгоритм и реализацию (желательно на Python), которая соответствует этим критериям?
Библиотеки, на которые я смотрел, включают:
- Оранжевый (В основном академический. Реализации не очень эффективны или практичны.)
- NLTK (Также академический, хотя и имеет хорошую реализацию Maxent, но не поддерживает непрерывные функции.)
- Weka (Все еще исследует это. Кажется, поддерживает широкий спектр алгоритмов, но имеет плохую документацию, поэтому неясно, что поддерживает каждая реализация.)