У нас есть требование, если для какого-то вычисления в матрице pyspark создается n * n матрицы. С помощью pyspark мы можем попытаться сделать это, как показано ниже:
similarity_matrix = np.zeros(shape=(data1.count(),data1.count()))
similarity_matrix = spark.createDataFrame(similarity_matrix)
Здесь данные - это наш кадр данных длиной 80K. есть какой-нибудь способ сделать это в pyspark, так как мы получаем ошибку памяти при выполнении этого