В настоящее время я работаю над набором данных, который в течение нескольких лет предоставляет информацию о сотрудниках крупной компании. Информация включает в себя информацию о том, уволился ли сотрудник в тот год (истина или ложь за каждый год), в какой налоговой категории он находится и в каком возрасте. Основываясь на наборе данных, я построил график процентной доли людей, бросающих курить, против их возраста, и количества людей, бросающих курить против своей налоговой категории. Предполагая, что эти цифры можно рассматривать как вероятность того, что кто-то бросит курить, учитывая его возраст, и вероятность того, что кто-то бросит курить, учитывая его налоговую шкалу, я хотел бы найти способ предсказать вероятность того, что кто-то бросит курить, учитывая и возраст, и налоговую шкалу.
Я не могу использовать наш набор данных для этого, потому что он слишком мал и большинство комбинаций в нем не встречаются (поэтому я просто получаю 0% за все). Есть ли способ предсказать это, используя какую-то модель?