Как организовать набор данных с уникальными идентификаторами клиентов и ежегодными наблюдениями для регрессии / ML - PullRequest
1 голос
/ 07 февраля 2020

У меня есть набор данных, состоящий из данных о продажах домов. Я хочу предсказать цену продажи для данного года (переменная ответа) на основе различных атрибутов. Домам присваиваются уникальные идентификаторы, а некоторые продаются более одного раза в наши сроки. Чтобы повысить точность моих прогнозов, я хочу иметь возможность включать любые предыдущие продажные цены и атрибуты для прогнозирования будущих цен на жилье.

Простой пример структуры данных

Я попытался реорганизовать данные, используя строки на основе идентификаторов клиентов:

Новое форматирование

Поскольку у меня продажи в разные годы для каждого дома, это создает большой набор данных со многими NA. Это затрудняет прогнозирование цен на жилье при выполнении регрессии / ML. В итоге я получаю 80% строк с NA, что означает, что мне приходится приписывать выполнение алгоритмов, но это приводит к плохим результатам.

Есть ли какой-нибудь умный способ реализовать продажные цены и атрибуты для каждой исторической недвижимости c когда прогнозируешь цены? Я пытался включить уникальные идентификаторы в наборы обучения и тестирования (чтобы убедиться, что одни и те же идентификаторы не встречаются в наборах обучения и набора данных), но есть ли лучший способ упорядочить данные для получения лучших результатов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...