Прогнозирование времени отказа на основе пропорциональной модели опасности Кокса - PullRequest
0 голосов
/ 07 мая 2018

Я новичок в переполнении стека! Извините заранее, если это глупый или запутанный вопрос.

У меня есть набор правильных цензурированных продольных данных (данных о выживании), которые содержат время неудачи (отставки) работников, место работы и месячную зарплату. Моя цель - предсказать / смоделировать время отказа каждого работника. Следовательно, учитывая тот факт, что степень опасности приближается к условной вероятности отказа, если изменение времени невелико, я решаю смоделировать время отказа каждого работника на основе пропорциональной модели Кокса опасности. Вот мои шаги:

  1. Я разбил исходный набор данных на тренировочный и тестовый набор. Учебный комплект использовался для обучения модели пропорционального риска Кокса.
  2. На основании оценочных коэффициентов я оценил совокупную базовую функцию опасности и, таким образом, можно было получить базовую функцию опасности.
  3. Я рассчитал индивидуальные уровни опасности для каждого периода времени и работника (на основе набора тестов). Я построил матрицу (столбцы = смоделированные дни, строка = рабочий) для хранения всех показателей.
  4. Я выбрал два способа смоделировать / предсказать время отказа каждого работника:

4,1

Я использую равномерное распределение для генерации случайных вероятностей каждого смоделированного дня, а день отказов - это первый смоделированный день, когда у работника уровень опасности превышает сгенерированную вероятность. Я повторяю этот шаг для n итераций. Тем не менее, этот результат содержит большое количество «нан», потому что некоторые работники не имеют какой-либо степени риска больше генерируемой вероятности. Следовательно, трудно определить время отказа.

4,2

Я просто рассматриваю смоделированный день с наибольшей индивидуальной опасностью как время отказа каждого работника. Тем не менее, этот способ не работает, потому что работники могут иметь очень постоянные и небольшие индивидуальные уровни опасности.

Я пробовал параметрические модели, но вычисление занимает очень много времени, потому что мой набор данных очень большой (> 800000 строк)

Мой вопрос: есть ли какие-либо предложения по моделированию / прогнозированию времени отказа каждого работника?

Большое спасибо!

Jeff

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...