я не смог найти код для чтения файла Excel в pyspark dataframe - PullRequest
0 голосов
/ 01 апреля 2020

когда я конвертирую Excel в CSV .. Я могу обнаружить несоответствие загруженных записей.

У меня есть файл xslx 91800 записей, но при чтении в фрейм данных pyspark после преобразования в файл CSV он показывает мне 92301 записей. все операции работают нормально, но записи отличаются. кто-нибудь может мне помочь?

Ответы [ 2 ]

0 голосов
/ 03 апреля 2020

Я бы попробовал прочитать с Pandas, а затем преобразовать в искровой датафрейм. По моему опыту, Pandas чтение в формате csv более стабильно.

import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)

Ваше число записей подходит для чтения с Pandas

0 голосов
/ 01 апреля 2020

По моему опыту, эта проблема может возникнуть, когда в вашей таблице есть свободные текстовые поля, содержащие разделитель (например, запятую) и / или новую строку.

Вы можете решить эту проблему следующим образом:

  • Выбор опции «Цитировать все текстовые ячейки» при экспорте файла excel в csv.
  • Использование опции multiLine при чтении из csv-файла в Spark, например spark.read.csv(file, multiLine=True).
...