Использование панд для нахождения близких векторов в большом наборе данных - PullRequest
0 голосов
/ 03 сентября 2018

Для проекта сходства мне нужно проанализировать 1000-мерные векторы признаков и найти ближайший (у меня есть определенный эмпирический порог, используя Манхэттенское расстояние , то есть scipy.spatial.distance.cityblock ). У меня есть пара миллионов векторов для сравнения на начальном этапе, и они будут постоянно добавляться.

Я думаю об использовании Панд для решения задачи. Будет ли это работать? Должен ли я разделить мой набор данных на несколько сегментов?

Векторы состоят из положительных действительных чисел (в основном до 10) и нулей.

    ...
    0.0,
    0.0,
    0.00627385638654232,
    0.0,
    9.711357051855884e-07,
    0.0,
    2.1105501651763916,
    0.0,
    2.3891907896533837e-10,
    0.0,
    0.16674332320690155,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    4.790003475844827e-27,
    0.0,
    0.0,
    0.0,
    0.0,
    3.0351770901292097e-13,
    0.06621165573596954,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    1.1311118331775704e-17,
    0.0,
    0.0,
    0.0,
    7.631283341843815e-20,
    0.0,
    0.0,
    1.6503195254813363e-08,
    2.1143353508292794e-26,
    0.0,
    0.0,
    0.0,
    0.0,
    0.0,
    0.7260096073150635,
    0.0,
    0.0,
    0.6851852536201477,
    0.0,
    0.0,
    0.0,
    0.005956938490271568,
    ...
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...