Извлечение важных подразделов и поднабора документов, связанных с ними, из набора документов - PullRequest
0 голосов
/ 20 марта 2019

У меня есть набор документов, все из которых подпадают под категорию «преступление».

Теперь я хочу разделить их на несколько (могут перекрываться) кластеров документов, где каждый из кластеров сформирован под подкатегорией, такой как убийство или похищение людей и т. Д.

Я хочу сделать это, используянекоторый способ определения важности отдельных слов, встречающихся в каждом документе.Я уже пробовал использовать TF-IDF, но он не дает удовлетворительных результатов.

Ответы [ 2 ]

1 голос
/ 21 марта 2019

Другой альтернативой является присвоение весов часто встречающимся словам.Затем вы можете сгруппировать слова, используя k-прототипы или подход k-mode.

0 голосов
/ 21 марта 2019

Вам понадобится наблюдение.

Такие слова, как «подозреваемый», «пистолет», скорее всего значимы, но не дают желаемых категорий.Безнадзорный подход не может знать, что такое «вид» преступления.

...