У меня есть набор данных, состоящий из данных о продажах домов. Я хочу предсказать цену продажи для данного года (переменная ответа) на основе различных атрибутов. Домам присваиваются уникальные идентификаторы, а некоторые продаются более одного раза в наши сроки. Чтобы повысить точность моих прогнозов, я хочу иметь возможность включать любые предыдущие продажные цены и атрибуты для прогнозирования будущих цен на жилье.
Простой пример структуры данных
Я попытался реорганизовать данные, используя строки на основе идентификаторов клиентов:
Новое форматирование
Поскольку у меня продажи в разные годы для каждого дома, это создает большой набор данных со многими NA. Это затрудняет прогнозирование цен на жилье при выполнении регрессии / ML. В итоге я получаю 80% строк с NA, что означает, что мне приходится приписывать выполнение алгоритмов, но это приводит к плохим результатам.
Есть ли какой-нибудь умный способ реализовать продажные цены и атрибуты для каждой исторической недвижимости c когда прогнозируешь цены? Я пытался включить уникальные идентификаторы в наборы обучения и тестирования (чтобы убедиться, что одни и те же идентификаторы не встречаются в наборах обучения и набора данных), но есть ли лучший способ упорядочить данные для получения лучших результатов?