У меня очень-очень большая база документов, и я превращаю каждый документ в Набор его ngram (символьных ngrams), а затем использую CountVecotrizer. Я хочу ускорить как фактическое вычисление расстояния (с помощью MinHashes для аппроксимации расстояния Жаккарда, так и с помощью техники L SH для Bucketing. Это даст мне ложные отрицательные и ложные срабатывания как для bucketing, так и minha sh) шагов алгоритма, но это нормально. Это единственный способ обработать мои данные.
Моя проблема в том, что искры MinHa sh возвращает массив (DenseVector, true), где каждый DenseVector имеет размерность 1 .
L SH затем ожидает DenseVector. Итак, я хочу превратить массив 1-dim DenseVector в n-dim DenseVector. Как я могу сделать это с помощью Spark?
Я без всякого сожаления попробовал
- vectorassembler
- udf
- pandas_udf