Проблема классификации машинного обучения. какой лучший классификатор? - PullRequest
0 голосов
/ 29 апреля 2020

Я хотел бы классифицировать этот набор данных Credit Scoring , который состоит из 21 атрибута, некоторые из которых являются цифрами c, а другие - логическими.

набор данных выглядит примерно так this

Attribute 9: (qualitative)
Personal status and sex
A91 : male : divorced/separated
A92 : female : divorced/separated/married
A93 : male : single
A94 : male : married/widowed
A95 : female : single

Attribute 10: (qualitative)
Other debtors / guarantors
A101 : none
A102 : co-applicant
A103 : guarantor

Attribute 11: (numerical)
Present residence since

Attribute 12: (qualitative)
Property
A121 : real estate
A122 : if not A121 : building society savings agreement/ life insurance
A123 : if not A121/A122 : car or other, not in attribute 6
A124 : unknown / no property

Вывод должен быть логическим (хорошим / плохим), я хочу знать, имеют ли они хороший или плохой кредит на основе этих атрибутов, без вычисления какого-либо числового значения c для кредитного рейтинга .

Я использую Weka для этой задачи. Однако я не уверен, каковы лучшие / идеальные классификаторы для таких наборов данных.

Кто-нибудь здесь может направить меня в правильном направлении?

Ответы [ 2 ]

0 голосов
/ 29 апреля 2020

Теорема «Нет бесплатного обеда» гласит, что не существует единой модели, которая лучше всего подходит для каждой задачи. Допущения о хорошей модели для одной проблемы могут не подходить для другой проблемы, следовательно, вам определенно стоит попробовать некоторые модели !! Проверьте больше здесь: https://chemicalstatistician.wordpress.com/2014/01/24/machine-learning-lesson-of-the-day-the-no-free-lunch-theorem/

0 голосов
/ 29 апреля 2020

Идеальный инструмент для этой работы - SVM! Бинарная классификация без особых сложностей (например, распознавания языка или изображения) написана на SVM, просто убедитесь, что применен инструмент масштабирования, чтобы убедиться, что все ваши входные данные имеют одинаковый масштаб. Вы должны преобразовать логические атрибуты в 0/1. Sklearn отлично подходит для такого рода вещей.

Если вы хотите немного поумнеть, вы можете попробовать ансамблевые классификаторы, такие как случайный лес или AdaBoost.

...