Предположим, у меня есть Spark DataFrame с байтами в виде строк в его теле. Я хотел бы получить строку байтов, которые являются файлами паркетных файлов в нем для одного Spark Dataframe.
- Столбец: parquet_bytes_string
- "b'PAR ... '"
- "b'PAR ... '"
Эти строки представляют собой байты партера, и я могу проанализировать их в цикле следующим образом:
import pandas as pd
from io import BytesIO
for row in dfparquets:
dfparquet = pd.read_parquet(BytesIO(eval(row['parquet_bytes_string'])))
Прочитать их с помощью панд довольно просто.
Какая альтернатива использовать spark.read.parquet из строки байтов в Pyspark?
Я уже пытался использовать pyspark.read.format("parquet")
но они работают только с файлами. Я хотел бы избежать записи этих байтов в FileStore, так как у меня уже есть паркет.