предложение по алгоритму кластеризации? - PullRequest
0 голосов
/ 26 июня 2019

У меня есть набор данных 590000 записей после предварительной обработки, и я хотел найти кластеры из него, и он содержит строковые данные (сейчас предположим, что у меня есть только один столбец с 590000 уникальными значениями в наборе данных).Также я использую пользовательскую меру расстояния, необходимую для расчета матрицы расстояний размером 590000 * 590000.Используя некоторую логику разбиения, я создал матрицу расстояний, но не могу объединить эти разделы в одну матрицу больших расстояний из-за ограничений памяти.У кого-нибудь есть какие-либо идеи, чтобы решить это ??Я выбрал DBSCAN для этого.Есть ли способ использовать методологии глубокого обучения?любые другие идеи

1 Ответ

0 голосов
/ 27 июня 2019

Сначала используйте управляемый образец.

Поскольку я сомневаюсь, что результаты будут достаточно хороши, чтобы оправдать любые попытки масштабирования метода, который все равно не работает.

...