Итак, я какое-то время обдумывал эти концепции, и мое понимание является очень базовым. Похоже, что поиск информации редко обсуждается в дикой природе ...
Мои вопросы связаны с процессом кластеризации документов. Допустим, я начинаю с набора документов, содержащих только интересные слова. Каков первый шаг здесь? Разобрать слова из каждого документа и создать гигантскую модель типа «мешок слов»? Затем я приступаю к созданию векторов количества слов для каждого документа? Как сравнить эти документы, используя что-то вроде кластеризации K-средних?