Цепочка MinHa sh и L SH (BucketedRandomProjectionL SH) в Spark для приблизительного расстояния и ложных положительных / отрицательных результатов - PullRequest
0 голосов
/ 10 июля 2020

У меня очень-очень большая база документов, и я превращаю каждый документ в Набор его ngram (символьных ngrams), а затем использую CountVecotrizer. Я хочу ускорить как фактическое вычисление расстояния (с помощью MinHashes для аппроксимации расстояния Жаккарда, так и с помощью техники L SH для Bucketing. Это даст мне ложные отрицательные и ложные срабатывания как для bucketing, так и minha sh) шагов алгоритма, но это нормально. Это единственный способ обработать мои данные.

Моя проблема в том, что искры MinHa sh возвращает массив (DenseVector, true), где каждый DenseVector имеет размерность 1 .

L SH затем ожидает DenseVector. Итак, я хочу превратить массив 1-dim DenseVector в n-dim DenseVector. Как я могу сделать это с помощью Spark?

Я без всякого сожаления попробовал

  • vectorassembler
  • udf
  • pandas_udf
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...