Построение слов при кластеризации текста с использованием Python - PullRequest
0 голосов
/ 21 марта 2019

Я получил результат, показанный на рисунке ниже для моей кластеризации.

enter image description here

Существуют ли какие-либо библиотеки, похожие на fvid_clusters, которые могли бы создавать графики, как показано ниже? (ИСПОЛЬЗУЯ PYTHON)

enter image description here

Ответы [ 2 ]

1 голос
/ 21 марта 2019

Графики не совсем такие, как вы показываете, но есть два инструмента, которые мне нравится использовать для изучения результатов кластеризации текста (оба имеют привязки для Python).

Термит : http://vis.stanford.edu/papers/termite

Termite

UMAP : https://umap -learn.readthedocs.io / en / latest /

Вот результат тематического моделирования, выполненного с помощью NMF (из моей диссертации) с использованием набора данных BBC Sports .

BBC Sports

0 голосов
/ 21 марта 2019
  • Шаг 1: Векторизовать слова в векторы (каждый размером n)
  • Шаг 2: Используйте kmean, чтобы объединить их в k кластеров
  • Шаг 3. Запустите PCA для векторов, созданных на шаге 1, и уменьшите их до двух измерений (скажем, x, y)
  • Шаг 4: Составьте слова в месте (x, y), где (x, y) - это размеры, уменьшенные PCA по сравнению с его полноразмерным вектором размера n. Раскрасьте слово, соответствующее кластеру, указанному на шаге 2 (используйте один цвет на кластер).
...