Question

когда я конвертирую Excel в CSV .. Я могу обнаружить несоответствие загруженных записей.

У меня есть файл xslx 91800 записей, но при чтении в фрейм данных pyspark после преобразования в файл CSV он показывает мне 92301 записей. все операции работают нормально, но записи отличаются. кто-нибудь может мне помочь?

Assaf · Answer 1 · 03 апреля 2020

Я бы попробовал прочитать с Pandas, а затем преобразовать в искровой датафрейм. По моему опыту, Pandas чтение в формате csv более стабильно.

import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)

Ваше число записей подходит для чтения с Pandas

Gerold Busch · Answer 2 · 01 апреля 2020

По моему опыту, эта проблема может возникнуть, когда в вашей таблице есть свободные текстовые поля, содержащие разделитель (например, запятую) и / или новую строку.

Вы можете решить эту проблему следующим образом:

Выбор опции «Цитировать все текстовые ячейки» при экспорте файла excel в csv.
Использование опции multiLine при чтении из csv-файла в Spark, например spark.read.csv(file, multiLine=True).

я не смог найти код для чтения файла Excel в pyspark dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

я не смог найти код для чтения файла Excel в pyspark dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы