Как рассчитать сходство двух последовательностей в R для кластеризации с использованием hclust? - PullRequest
0 голосов
/ 27 августа 2018

Я хочу выполнить кластеризацию, используя функцию hclust в R. Требуется матрица расстояний. Я хочу рассчитать расстояние, используя мою собственную функцию подобия. Моя последовательность будет представлена ​​числами или идентификаторами (вместо алфавитов). например s1 = [12 13 14 15] s2 = [13 14 15 16] Тогда расстояние между двумя последовательностями представляет собой долю суммы длин n-грамм, общих для двух последовательностей, от суммы длин n-грамм, присутствующих в обеих последовательностях.

Я не уверен, как поместить мои данные последовательности в матрицу. Должна ли это быть разреженная матрица с единицами, указывающими на наличие определенного числа? Кроме того, как мне вычислить матрицу расстояний?

...