У меня большой DataFrame, заполненный отношениями между пользователями и элементами, например:
item1 item2
user1 0 1
user2 1 0
, и я хочу эффективно решить проблему сходства всех пар.
Я видел, что могуиспользуйте метод columnSimilarities
модуля pyspark.mllib
, если я работал с объектом RowMatrix
.
Поскольку каждый метод, который я придумал, чтобы решить эту проблему с помощью DataFrame
, кажется довольно неэффективным,Я хотел бы знать, как лучше всего получить RowMatrix
от моего DataFrame
.
Или, в лучшем случае, если я что-то упустил, и есть лучший способ справиться со всеми-пар проблемы схожести с DataFrame
, я хотел бы услышать об этом.