Лучше определить пользовательское расстояние metri c в sklearn k-NN или использовать пакет GPU k-NN с многомерными векторами? - PullRequest
1 голос
/ 28 января 2020

В настоящее время я использую k-NN Склеарна с пользовательским метриком расстояния c и алгоритм дерева шаров, чтобы найти около 20 ближайших соседей для набора данных, который содержит несколько миллионов точек. Пользовательское расстояние metri c пытается найти расстояние между векторами, которые содержат как категориальные переменные (закодированные как целые числа), так и непрерывные значения. Конечно, это чертовски медленно, и я рассмотрел другие варианты. Вещи в GPU выглядят многообещающе, но мне пришлось бы преобразовать мои категориальные переменные в однократные, что делает векторы довольно огромными (порядка 10 тыс. Измерений). Мне интересно, как выглядит компромисс здесь - лучше ли продолжать использовать k-NN и молиться о том, чтобы он в конце концов закончился, или я должен прикусить пулю и выполнить однократную обработку методами GPU? Есть ли умный способ обойти это?

...