Question

Итак, я разрабатываю модель для классификации набора данных по уровням риска.

Набор данных помечен на основе оценки, полученной от обследуемого.Теперь, из этого опроса, у меня будет максимум и минимум очков.Я читал статью, в которой они обозначают набор данных как «Высокий» или «Низкий», основываясь на общем среднем балле опроса.

Мне интересно, есть ли какой-нибудь метод для разработкимодель для классификации на основе вероятности (например, экземпляр данных составляет 60% к максимальной оценке), или возможный метод состоит в том, чтобы разделить оценку на основе децилей или квартилей.

Я все еще новичокдля такого рода проблем, поэтому любые советы / ответы будут очень признательны.Любые ключевые слова, по которым я буду искать, также будут очень благодарны.

Заранее спасибо!

tyumru · Answer 1 · 04 июня 2018

Первое, что нужно сделать, это определить количество уровней риска.Например, для двухуровневого задания (т. Е. Высокого и низкого) баллы между минимумом и медианой могут быть присвоены low , а баллы между медианой и максимумом могут быть присвоены high .

Аналогично, 4-уровневое задание может быть выполнено с использованием минимума, 1-го квартиля, медианы, 3-го квартиля и максимума.Таким образом, вы можете получить сбалансированный набор данных по меткам (т. Е. Каждая метка имеет одинаковое количество наблюдений)

Затем вы можете применить любой метод классификации для предоставления модели вашей проблемы.

Классификация основана на вероятности достижения максимальной или минимальной оценки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Классификация основана на вероятности достижения максимальной или минимальной оценки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов