У меня есть колонка с округом.Поскольку существует более 1000 различных округов, многие из них не заслуживают доверия.То, что я хочу сделать, это либо выбрать верхние n округов по количеству наблюдений, а остальные выделить в категорию «Другие».
После того, как я попробую модели с этой методологией, я исследую различные методы кластеризации.