Почему PCA в pyspark не хватает памяти? - PullRequest
0 голосов
/ 31 мая 2018

Когда я запускаю PCA в pyspark, у меня заканчивается память.Это pyspark 1.6.3, а среда исполнения - это ноутбук Zeppelin.Вот пример.Пусть df будет фреймом данных pyspark, где «векторы» - это желаемый входной столбец (содержащий SparseVector данных).

from pyspark.ml.feature import PCA
pca = PCA(k = 100, inputCol="vectors", outputCol = "pca").fit(df)  



Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark-2419389767585347468.py", line 360, in <module>
    exec(code, _zcUserQueryNameSpace)
  File "<stdin>", line 2, in <module>
  File "/usr/hdp/current/spark-client/python/pyspark/ml/pipeline.py", line 69, in fit
    return self._fit(dataset)
  File "/usr/hdp/current/spark-client/python/pyspark/ml/wrapper.py", line 133, in _fit
    java_model = self._fit_java(dataset)
  File "/usr/hdp/current/spark-client/python/pyspark/ml/wrapper.py", line 130, in _fit_java
    return self._java_obj.fit(dataset._jdf)
  File "/usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py", line 813, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/hdp/current/spark-client/python/pyspark/sql/utils.py", line 45, in deco
    return f(*a, **kw)
  File "/usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/protocol.py", line 308, in get_return_value
    format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o222.fit.
: java.lang.OutOfMemoryError: Java heap space

Но проверьте это:

import pandas as pd
import numpy as np

pandf = df.toPandas()

densevectors = [np.array(sparse.toArray()) for sparse in pandf['vectors']]
xtrain = np.vstack(densevectors)

from sklearn.decomposition import PCA as skPCA

skpca = skPCA(n_components=100).fit(xtrain)
skpca.components_.shape



(100, 41277)

Время выполнения14 секунд.Конечно, проблем с памятью нет, потому что входной набор данных содержит всего ~ 9000 строк разреженных векторов.В spark-defaults.conf для памяти драйвера и исполнителя установлено 12g, и это кластер с 8 узлами, который должен иметь 32g для каждого узла.Нет никакого способа, чтобы весь набор входных данных даже занимал 1 МБ, даже в формате .csv.

Почему реализации PCA pyspark не хватает памяти?

...