Я новичок в переполнении стека! Извините заранее, если это глупый или запутанный вопрос.
У меня есть набор правильных цензурированных продольных данных (данных о выживании), которые содержат время неудачи (отставки) работников, место работы и месячную зарплату. Моя цель - предсказать / смоделировать время отказа каждого работника. Следовательно, учитывая тот факт, что степень опасности приближается к условной вероятности отказа, если изменение времени невелико, я решаю смоделировать время отказа каждого работника на основе пропорциональной модели Кокса опасности. Вот мои шаги:
- Я разбил исходный набор данных на тренировочный и тестовый набор. Учебный комплект использовался для обучения модели пропорционального риска Кокса.
- На основании оценочных коэффициентов я оценил совокупную базовую функцию опасности и, таким образом, можно было получить базовую функцию опасности.
- Я рассчитал индивидуальные уровни опасности для каждого периода времени и работника (на основе набора тестов). Я построил матрицу (столбцы = смоделированные дни, строка = рабочий) для хранения всех показателей.
- Я выбрал два способа смоделировать / предсказать время отказа каждого работника:
4,1
Я использую равномерное распределение для генерации случайных вероятностей каждого смоделированного дня, а день отказов - это первый смоделированный день, когда у работника уровень опасности превышает сгенерированную вероятность. Я повторяю этот шаг для n итераций. Тем не менее, этот результат содержит большое количество «нан», потому что некоторые работники не имеют какой-либо степени риска больше генерируемой вероятности. Следовательно, трудно определить время отказа.
4,2
Я просто рассматриваю смоделированный день с наибольшей индивидуальной опасностью как время отказа каждого работника. Тем не менее, этот способ не работает, потому что работники могут иметь очень постоянные и небольшие индивидуальные уровни опасности.
Я пробовал параметрические модели, но вычисление занимает очень много времени, потому что мой набор данных очень большой (> 800000 строк)
Мой вопрос: есть ли какие-либо предложения по моделированию / прогнозированию времени отказа каждого работника?
Большое спасибо!
Jeff