Создание текстовых кластеров, содержащих похожий текст - PullRequest
0 голосов
/ 11 июня 2018

Недавно я работал над кластеризацией изображений, которая находила похожие изображения и группировала их вместе.Я использовал модуль Python skimage для вычисления SSIM, а затем кластеризовал все изображения на основе определенного порогового значения, которое было принято.

Я хочу сделать подобное для текста.Я хочу создать автоматические кластеры, содержащие похожий текст.Например, в кластере-1 может быть весь текст, представляющий работающих матерей, в кластере-2 может быть весь текст, представляющий людей, говорящих о еде и так далее.Я понимаю, что это должно быть обучение без присмотра.У нас есть похожие модули Python, которые могут помочь в решении этой задачи?Я также проверил тензор потока Google, чтобы посмотреть, смогу ли я получить от него что-то, но не нашел ничего, связанного с кластеризацией текста в его документации.

1 Ответ

0 голосов
/ 11 июня 2018

Есть множество способов подойти к задаче.В большинстве случаев алгоритмы кластеризации очень похожи на кластеризацию изображений, но вам нужно определить метрику расстояния - в этом случае семантическое сходство метрика некоторого вида.

Для этой цели вы можетеиспользуйте подходы, которые я перечислил в другом вопросе по теме семантического сходства (даже если немного более подробно).

Еще один подход, о котором стоит упомянуть, - это «автоматическая кластеризация», предоставляемая тематическое моделирование инструменты, такие как LSA , которые вы можете запустить довольно просто , используя пакет gensim.

...