Question

Предположим, у меня есть Spark DataFrame с байтами в виде строк в его теле. Я хотел бы получить строку байтов, которые являются файлами паркетных файлов в нем для одного Spark Dataframe.

Столбец: parquet_bytes_string
"b'PAR ... '"
"b'PAR ... '"

Эти строки представляют собой байты партера, и я могу проанализировать их в цикле следующим образом:

import pandas as pd
from io import BytesIO

for row in dfparquets:
    dfparquet = pd.read_parquet(BytesIO(eval(row['parquet_bytes_string'])))

Прочитать их с помощью панд довольно просто.

Какая альтернатива использовать spark.read.parquet из строки байтов в Pyspark?

Я уже пытался использовать pyspark.read.format("parquet") но они работают только с файлами. Я хотел бы избежать записи этих байтов в FileStore, так как у меня уже есть паркет.

Читайте паркетную строку Байт на Databricks / Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Читайте паркетную строку Байт на Databricks / Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы