Читайте паркетную строку Байт на Databricks / Pyspark - PullRequest
0 голосов
/ 08 ноября 2019

Предположим, у меня есть Spark DataFrame с байтами в виде строк в его теле. Я хотел бы получить строку байтов, которые являются файлами паркетных файлов в нем для одного Spark Dataframe.

  1. Столбец: parquet_bytes_string
  2. "b'PAR ... '"
  3. "b'PAR ... '"

Эти строки представляют собой байты партера, и я могу проанализировать их в цикле следующим образом:

import pandas as pd
from io import BytesIO

for row in dfparquets:
    dfparquet = pd.read_parquet(BytesIO(eval(row['parquet_bytes_string'])))

Прочитать их с помощью панд довольно просто.

Какая альтернатива использовать spark.read.parquet из строки байтов в Pyspark?

Я уже пытался использовать pyspark.read.format("parquet") но они работают только с файлами. Я хотел бы избежать записи этих байтов в FileStore, так как у меня уже есть паркет.

...