Я пытаюсь кластеризовать короткие документы, такие как, например, следующие
sentences<-c("The color blue neutralizes orange yellow reflections.",
"Zod stabbed me with blue Kryptonite.",
"Because blue is your favourite colour.",
"Red is wrong, blue is right.",
"You and I are going to yellowstone.",
"Van Gogh looked for some yellow at sunset.",
"You ruined my beautiful green dress.",
"You do not agree.",
"There's nothing wrong with green.")
На этапе инициализации моего кода я должен произвольно назначить документы для кластеров K
, согласно Дирихле Многокомпонентное распределение.
Как я мог выполнить эту задачу?
Редактировать Благодаря комментарию @ ags29 я нашел в Выборка из полинома Дирихле
D=9 # number of documents in the corpus; I have 9 sentences in my example
k=2 # number of clusters (e.g. 2)
alpha=runif(D) # value of alpha, here chosen at random
p=rgamma(D,alpha) # pre-simulation of the Dirichlet
Что вы думаете?