1) Второй набор данных - это, по сути, характеристики ресторана, которые могут повлиять на первый набор данных.Время открытия примера или местоположение являются сильными факторами, которые может учитывать клиент.Вы можете использовать их, объединяя их на уровне ресторана.Это может помочь вам понять, как люди относятся к местоположению, а время - как отражение в их оценке ресторана. Обратите внимание, что здесь вы можете даже применить кластеризацию и увидеть, что разные клиенты имеют разную чувствительность к этим переменным.
Например, для часто встречающихся клиентов (которые в основном питаются вне дома) могут быть более внимательны к месту / времени и т. Д., Если это является частью их повседневной жизни.
Вы должны применять методы моделирования и делать несколько симуляций для получения графиков с изменяемой важностью и видеть, имеют ли такие переменные, как местоположение / время, высокую дисперсию в оценках важности при расчете на разных подмножествах данных - это будет указывать наразличная чувствительность клиентов.
2) Вы можете посмотреть на завершение ярлыка или одно горячее завершение или даже использовать переменную как есть?Здесь будет полезно объяснить, сколько уровней в данных.Вы можете посмотреть на pd.get_dummies
вид функций
Надеюсь, это поможет.