Как кластеризовать мои данные с помощью специальной матрицы расстояний, используя метод CLARANS библиотеки улыбок - PullRequest
3 голосов
/ 29 мая 2019

Я хочу кластеризовать мои данные с помощью пользовательской матрицы расстояний, а не встроенных алгоритмов (т.е. евклидовых).И, похоже, нет четкого способа сделать это.

Я попытался добавить часть своего кода в демонстрационные версии в проекте Smile.Также пытался сделать это с тестированием в моем проекте, вот фрагмент кода:

        StringBuilder sb = new StringBuilder();
        String line;
        while ((line = vrpJsonFromFile.readLine()) != null) {
            sb.append(line).append("\n");
        }
        JSONArray jsonArray = new JSONObject(sb.toString()).getJSONArray("services");
        Double[][] data = new Double[jsonArray.length()][2];
        for (int i = 0; i < jsonArray.length(); i++) {
            JSONObject address = jsonArray.getJSONObject(i).getJSONObject("address");
            data[i][0] = Double.parseDouble(address.getString("lon"));
            data[i][1] = Double.parseDouble(address.getString("lat"));
        }

        // here
        Distance<Double[]> distance1 = (x, y) -> Math.sqrt(Math.pow(y[1]-x[1],2) + Math.pow(y[0]-x[0], 2));
        CLARANS<Double[]> clarans = new CLARANS<>(data, distance1, 3);
        System.out.println(clarans);

Этот код создает кластеризацию CLARANS с помощью евклидова алгоритма (см. Строку под комментарием // здесь).Я должен изменить это с помощью своей собственной матрицы расстояний, и я надеюсь, что есть способ сделать это в Smile.

1 Ответ

1 голос
/ 30 мая 2019

Вы, вероятно, можете использовать

Distance<Integer> d = (i,j) -> matrix[i][j];

для кластеризации номеров объектов, а не их векторов.

Но, возможно, стоит взглянуть на ELKI, который имеет предопределенные классы для матриц расстояний и использует оптимизированные представления для наборов объектов, вместо того, чтобы использовать дорогостоящий Integer в штучной упаковке, как в лямбде выше. Поскольку i и j представляют собой целые числа в штучной упаковке, это требует дополнительной косвенной памяти (и пропусков кэша) для каждого вычисления расстояния, что может значительно снизить производительность. Он также имеет лучший алгоритм FastCLARANS и FastPAM, которые предположительно в O (k) раз быстрее.

...