Прогнозирование на основе большего количества фреймов данных - PullRequest
0 голосов
/ 23 октября 2018

Я пытаюсь предсказать оценку, которую пользователь дает ресторану.

Данные , которые у меня есть, могут быть сгруппированы в два кадра данных

  • данных о пользователе (вкус, личные качества, семья, ...)
  • данные о ресторане (часы работы, местоположение, кухня, ...).

Первый главный вопрос: как мне подойти к этому?

Я уже пробовал базовое прогнозирование с пользовательским фреймом данных (прогнозирование одного столбца с несколькими другими с помощью RandomForest), и это было довольно просто.Эти кадры данных логически отличаются, и я не могу объединить их в один.

Каков наилучший подход при таком прогнозировании?

Мой второй вопрос Каков наилучший способ обработки категориальных данных (kitchen fe)?

Я знаю, что могу создать функцию отображения и преобразовать каждое значение в индекс, или я могу использовать Категориальный из панд (и, вероятно, несколько других методов).Есть ли какой-нибудь предпочтительный способ сделать это?

1 Ответ

0 голосов
/ 23 октября 2018

1) Второй набор данных - это, по сути, характеристики ресторана, которые могут повлиять на первый набор данных.Время открытия примера или местоположение являются сильными факторами, которые может учитывать клиент.Вы можете использовать их, объединяя их на уровне ресторана.Это может помочь вам понять, как люди относятся к местоположению, а время - как отражение в их оценке ресторана. Обратите внимание, что здесь вы можете даже применить кластеризацию и увидеть, что разные клиенты имеют разную чувствительность к этим переменным.

Например, для часто встречающихся клиентов (которые в основном питаются вне дома) могут быть более внимательны к месту / времени и т. Д., Если это является частью их повседневной жизни.

Вы должны применять методы моделирования и делать несколько симуляций для получения графиков с изменяемой важностью и видеть, имеют ли такие переменные, как местоположение / время, высокую дисперсию в оценках важности при расчете на разных подмножествах данных - это будет указывать наразличная чувствительность клиентов.

2) Вы можете посмотреть на завершение ярлыка или одно горячее завершение или даже использовать переменную как есть?Здесь будет полезно объяснить, сколько уровней в данных.Вы можете посмотреть на pd.get_dummies вид функций

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...