Question

У меня есть набор документов, все из которых подпадают под категорию «преступление».

Теперь я хочу разделить их на несколько (могут перекрываться) кластеров документов, где каждый из кластеров сформирован под подкатегорией, такой как убийство или похищение людей и т. Д.

Я хочу сделать это, используянекоторый способ определения важности отдельных слов, встречающихся в каждом документе.Я уже пробовал использовать TF-IDF, но он не дает удовлетворительных результатов.

mnm · Answer 1 · 21 марта 2019

Другой альтернативой является присвоение весов часто встречающимся словам.Затем вы можете сгруппировать слова, используя k-прототипы или подход k-mode.

Anony-Mousse · Answer 2 · 21 марта 2019

Вам понадобится наблюдение.

Такие слова, как «подозреваемый», «пистолет», скорее всего значимы, но не дают желаемых категорий.Безнадзорный подход не может знать, что такое «вид» преступления.

Извлечение важных подразделов и поднабора документов, связанных с ними, из набора документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение важных подразделов и поднабора документов, связанных с ними, из набора документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы