Чтение файла Excel (.xlsx) в pyspark - PullRequest
1 голос
/ 22 января 2020

Я пытаюсь прочитать файл .xlsx по локальному пути в PySpark.

Я написал следующий код:

from pyspark.shell import sqlContext
from pyspark.sql import SparkSession

spark = SparkSession.builder \
      .master('local') \
      .appName('Planning') \
      .enableHiveSupport() \
      .config('spark.executor.memory', '2g') \
      .getOrCreate()

df = sqlContext.read("C:\P_DATA\tyco_93_A.xlsx").show()

Ошибка:

TypeError: объект 'DataFrameReader' не может быть вызван

1 Ответ

0 голосов
/ 22 января 2020

Вы можете использовать pandas, чтобы прочитать файл .xlsx, а затем преобразовать его в искровой фрейм данных.

from pyspark.sql import SparkSession
import pandas

spark = SparkSession.builder.appName("Test").getOrCreate()

pdf = pandas.read_excel('excelfile.xlsx', sheet_name='sheetname', inferSchema='true')
df = spark.createDataFrame(pdf)

df.show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...