Question

Вот подробное описание проблемы:

Таблица 1: (9M x 2000)
Таблица 2: (7800 x 2000)
I 'Я хотел бы создать окончательный набор данных размером (9M x 7800), где каждая ячейка будет иметь косинусное сходство из двух строк в Таблице 1 и Таблице 2

Я былссылаясь на этот поток при переполнении стека, но я не уверен, какой подход использовать. Я прошу прощения, если это тривиальная проблема, я новичок в pyspark и не уверен, что делать дальше.

Любой ответ, объяснение которого было бы высоко ценится!

Расчет косинусного сходства между различными наборами данных в Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Расчет косинусного сходства между различными наборами данных в Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы