У меня есть тысяча тысяч таких элементов:
[ "business_id_a", [ "Food", "Restaurant","Wine & Pizza"] ]
[ "business_id_b", ["Mexican", "Burgers", "Gastropubs & Wine" ] ]
...
[ "business_id_k", ["Automotive", "Delivery","Whatever"] ]
Я хочу сгруппировать business_id, используя тему группировки k-means по категориям.
Возможно, это не лучший вариант . Моя идея состоит в том, чтобы создать своего рода Словарь категорий и делать это, группируя сначала все возможные категории любым способом, а затем, используя модель, группируя образцы как группу business_id по кластеру категорий.
Может эта работа? Как лучше всего это сделать в Python?