Расчет косинусного сходства между различными наборами данных в Pyspark - PullRequest
0 голосов
/ 31 октября 2019

Вот подробное описание проблемы:

  1. Таблица 1: (9M x 2000)
  2. Таблица 2: (7800 x 2000)
  3. I 'Я хотел бы создать окончательный набор данных размером (9M x 7800), где каждая ячейка будет иметь косинусное сходство из двух строк в Таблице 1 и Таблице 2

Я былссылаясь на этот поток при переполнении стека, но я не уверен, какой подход использовать. Я прошу прощения, если это тривиальная проблема, я новичок в pyspark и не уверен, что делать дальше.

Любой ответ, объяснение которого было бы высоко ценится!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...