Как исправить «ImportError: Pandas> = 0.19.2 должен быть установлен; однако он не был найден»? - PullRequest
0 голосов
/ 17 декабря 2018

Я использую Spark 2.3.1 и хочу использовать toPandas() (для использования unique()).

Когда я выполняю следующий код в pyspark:

df.toPandas()['column_01'].unique()

Я сталкиваюсь со следующим исключением:

>>> df.toPandas()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/xxx/spark/python/pyspark/sql/dataframe.py", line 2075, in toPandas
    require_minimum_pandas_version()
  File "/Users/xxx/spark/python/pyspark/sql/utils.py", line 129, in require_minimum_pandas_version
    "it was not found." % minimum_pandas_version)
ImportError: Pandas >= 0.19.2 must be installed; however, it was not found.

Как это исправить?

1 Ответ

0 голосов
/ 17 декабря 2018

Вам нужно будет установить панд: pip install pandas.Кроме того, чтобы получить уникальные значения, вам не нужно преобразовывать данные в фрейм pandas.Вы можете достичь этого в фрейме данных spark.

df.select('column_01').distinct()

...