Типы паркета PySpark - PullRequest
       6

Типы паркета PySpark

0 голосов
/ 01 июня 2018

Я использую PySpark для чтения относительно большого CSV-файла (~ 10 ГБ):

ddf = spark.read.csv('directory/my_file.csv')

Все столбцы имеют тип данных string

Послеизменяя тип данных, например, column_a Я вижу, что тип данных изменился на integer.Если я записываю ddf в файл паркета и читаю файл паркета, я замечаю, что все столбцы снова имеют тип данных string. Вопрос: Как я могу убедиться, что файл паркета содержит правильные типы данных, чтобы мне больше не приходилось менять тип данных (при чтении файла паркета).

Примечания :

Я пишу ddf в виде файла паркета следующим образом:

ddf.repartition(10).write.parquet('directory/my_parquet_file', mode='overwrite')

Я использую:

  • PySparkверсия 2.0.0.2
  • Python 3.x

1 Ответ

0 голосов
/ 01 июня 2018

Я читаю свои большие файлы с пандами и у меня нет этой проблемы.Попробуй использовать панд.http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.read_csv.html

In[1]: Import pandas as pd

In[2]: df = pd.read_csv('directory/my_file.csv')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...