Основы кластеризации документов - PullRequest
1 голос
/ 09 ноября 2011

Итак, я какое-то время обдумывал эти концепции, и мое понимание является очень базовым. Похоже, что поиск информации редко обсуждается в дикой природе ...

Мои вопросы связаны с процессом кластеризации документов. Допустим, я начинаю с набора документов, содержащих только интересные слова. Каков первый шаг здесь? Разобрать слова из каждого документа и создать гигантскую модель типа «мешок слов»? Затем я приступаю к созданию векторов количества слов для каждого документа? Как сравнить эти документы, используя что-то вроде кластеризации K-средних?

1 Ответ

1 голос
/ 28 ноября 2011

Попробуйте Tf-idf для начинающих.
Если вы читаете Python, посмотрите на "Кластеризацию текстовых документов с использованием MiniBatchKmeans" в scikit-learn :
"примердемонстрирующий, как scikit-learn можно использовать для кластеризации документов по темам с использованием подхода «мешок слов».
Тогда в исходном коде feature_extraction/text.py есть очень хорошие классы.

...