Question

У меня очень-очень большая база документов, и я превращаю каждый документ в Набор его ngram (символьных ngrams), а затем использую CountVecotrizer. Я хочу ускорить как фактическое вычисление расстояния (с помощью MinHashes для аппроксимации расстояния Жаккарда, так и с помощью техники L SH для Bucketing. Это даст мне ложные отрицательные и ложные срабатывания как для bucketing, так и minha sh) шагов алгоритма, но это нормально. Это единственный способ обработать мои данные.

Моя проблема в том, что искры MinHa sh возвращает массив (DenseVector, true), где каждый DenseVector имеет размерность 1 .

L SH затем ожидает DenseVector. Итак, я хочу превратить массив 1-dim DenseVector в n-dim DenseVector. Как я могу сделать это с помощью Spark?

Я без всякого сожаления попробовал

vectorassembler
udf
pandas_udf

Цепочка MinHa sh и L SH (BucketedRandomProjectionL SH) в Spark для приблизительного расстояния и ложных положительных / отрицательных результатов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Цепочка MinHa sh и L SH (BucketedRandomProjectionL SH) в Spark для приблизительного расстояния и ложных положительных / отрицательных результатов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы