Я пытаюсь кластеризовать большой (гигабайтный) набор данных. Чтобы кластеризовать, вам нужно расстояние каждой точки до каждой другой точки, так что вы получите матрицу расстояний размером N ^ 2, которая в случае моего набора данных будет порядка эксабайт. Pdist в Matlab, конечно, мгновенно взрывается;)
Есть ли способ сначала кластеризовать подмножества больших данных, а затем, возможно, объединить похожие кластеры?
Я не знаю, помогает ли это кому-нибудь, но данные представляют собой двоичные строки фиксированной длины, поэтому я рассчитываю их расстояния, используя расстояние Хэмминга (Distance = string1 XOR string2).