Вычисление сходства документов на основе матриц совпадений - PullRequest
0 голосов
/ 02 сентября 2018

У меня около 2000 документов (содержащих финские предложения), и я создал матрицу совпадений слово-слово для каждого документа. Есть всего ок. 6000 различных слов (элементов) в этих документах, поэтому каждая матрица совместного использования имеет размер 6000 x 6000, и значения в матрице представляют количество случаев, когда два элемента встречались вместе (в окне +/- 5 слов). Поэтому матрицы разрежены.

Моя цель состоит в том, чтобы (i) определить сходства между документами на основе этих матриц и (ii) классифицировать документы по кластерам посредством кластерного анализа. Тем не менее, я не уверен, как подойти к проблеме (I). Любые мысли, как начать, очень ценятся.

...