Как выполнить кластеризацию K- средств по тексту в python? - PullRequest
0 голосов
/ 09 июля 2020

У меня есть тысяча тысяч таких элементов:

[ "business_id_a", [ "Food", "Restaurant","Wine & Pizza"] ] 
[ "business_id_b", ["Mexican", "Burgers", "Gastropubs & Wine" ] ]
... 

[ "business_id_k", ["Automotive", "Delivery","Whatever"] ]

Я хочу сгруппировать business_id, используя тему группировки k-means по категориям.

Возможно, это не лучший вариант . Моя идея состоит в том, чтобы создать своего рода Словарь категорий и делать это, группируя сначала все возможные категории любым способом, а затем, используя модель, группируя образцы как группу business_id по кластеру категорий.

Может эта работа? Как лучше всего это сделать в Python?

1 Ответ

0 голосов
/ 10 июля 2020

лучший вариант - сначала разметить и векторизовать текст. Вы можете токенизировать с помощью токенизатора слов NLTK https://www.nltk.org/api/nltk.tokenize.html

, затем вы можете векторизовать, используя что-то вроде CountVectorizer sklearn или TFIDFVectorizer

оттуда, вы можете применить k-means

...