Вот подробное описание проблемы:
- Таблица 1: (9M x 2000)
- Таблица 2: (7800 x 2000)
- I 'Я хотел бы создать окончательный набор данных размером (9M x 7800), где каждая ячейка будет иметь косинусное сходство из двух строк в Таблице 1 и Таблице 2
Я былссылаясь на этот поток при переполнении стека, но я не уверен, какой подход использовать. Я прошу прощения, если это тривиальная проблема, я новичок в pyspark и не уверен, что делать дальше.
Любой ответ, объяснение которого было бы высоко ценится!