Я хочу сгруппировать ~ 100 000 коротких строк по чему-то вроде расстояния в q-грамм или простого «расстояния в мешке» или, возможно, расстояния Левенштейна в Python. Я планировал заполнить матрицу расстояний (100 000, выбрать 2 сравнения), а затем выполнить иерархическую кластеризацию с помощью pyCluster . Но я сталкиваюсь с некоторыми проблемами с памятью еще до того, как оторвусь от земли. Например, матрица расстояний слишком велика для numpy.
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
Это кажется разумным занятием? Или я обречен на проблемы с памятью в этой задаче? Спасибо за вашу помощь.