pyspark: AttributeError: объект «DataFrameReader» не имеет атрибута «csv» - PullRequest
0 голосов
/ 04 февраля 2020
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.5.2
      /_/

Using Python version 2.7.5 (default, Aug  7 2019 00:51:29)
SparkContext available as sc, HiveContext available as sqlContext.
>>> sqlContext = SQLContext(sc);
>>> df = sqlContext.read.csv("hdfs:///vagrant/data/letters.csv");
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'DataFrameReader' object has no attribute 'csv'

Я хотел импортировать CSV-файл в pyspark, но эта ошибка произошла.

Версия Spark: 1.5.2, python версия: 2.7.5

1 Ответ

0 голосов
/ 04 февраля 2020

Для свечи 1 вам нужно добавить банку расширения CSV на свой путь:

os.environ["PYSPARK_SUBMIT_ARGS"] = "--jars csv_spark.jar"

Вы можете найти все расширения на https://spark-packages.org/

...