несбалансированный набор данных, аномалии имеют то же распределение, что и обычные данные - PullRequest
0 голосов
/ 20 января 2019

Я работал с набором данных, который содержит 2 класса (95%, 5%).

И функции этих двух классов имеют практически одинаковое распределение.

Вопрос: как я могу классифицировать эти 2 класса и объяснить, какой принципал используется моделью для классификации тестового набора?

enter image description here

1 Ответ

0 голосов
/ 22 января 2019

На самом деле распределение функций имеет смысл, но вам нужно провести более подробный анализ, чем простое распределение функций. Предлагаю посмотреть несколько 3D-сюжетов. Вы можете взглянуть на некоторые ссылки об EDA:

https://www.kaggle.com/dejavu23/titanic-eda-to-ml-beginner

https://www.kaggle.com/dejavu23/house-prices-eda-to-ml-beginner

Что касается моделей классификации, я бы предложил использовать модели на основе Decision Tree, такие как Random Forest или Gradient Tree Boosting. Идея, лежащая в основе Decision Tree, заключается в разделении пространства признаков и создании одинакового прогноза для каждой его части. Вы можете построить деревья решений, используя несколько пакетов, и это поможет понять принципы, лежащие в основе модели. Вы можете прочитать больше обо всех этих моделях в хорошей книге:

http://www -bcf.usc.edu / ~ Gareth / ISL /

Ссылки на пакеты:

https://lightgbm.readthedocs.io/en/latest/

https://scikit -learn.org / стабильный / модули / tree.html

https://scikit -learn.org / стабильный / модули / ensemble.html

Вы можете прочитать о визуализации дерева решений:

https://medium.com/@rnbrown/creating-and-visualizing-decision-trees-with-python-f8e8fa394176

https://www.kaggle.com/willkoehrsen/visualize-a-decision-tree-w-python-scikit-learn

...