Я хочу выполнить кластеризацию, используя функцию hclust
в R. Требуется матрица расстояний. Я хочу рассчитать расстояние, используя мою собственную функцию подобия. Моя последовательность будет представлена числами или идентификаторами (вместо алфавитов). например s1 = [12 13 14 15]
s2 = [13 14 15 16]
Тогда расстояние между двумя последовательностями представляет собой долю суммы длин n-грамм, общих для двух последовательностей, от суммы длин n-грамм, присутствующих в обеих последовательностях.
Я не уверен, как поместить мои данные последовательности в матрицу. Должна ли это быть разреженная матрица с единицами, указывающими на наличие определенного числа? Кроме того, как мне вычислить матрицу расстояний?