Я пытался читать паркет из s3 следующим образом:
import dask.dataframe as dd
s3_path = "s3://my_bucket/my_table"
times = dd.read_parquet(
s3_path,
storage_options={
"client_kwargs": {
"endpoint_url": bucket_endpoint_url,
},
"profile_name": bucket_profile,
},
engine='pyarrow',
)
Просто создание кадра данных dask занимает очень много времени.В этом фрейме данных вычисления не выполняются.Я отслеживаю код, и похоже, он тратит время на pyarrow.parquet.validate_schema ()
В моих паркетных столах много файлов (~ 2000 файлов).И это занимает 543 секунды на моем ноутбуке только для создания фрейма данных.И он пытается проверить схему каждого файла паркета.Есть ли способ отключить проверку схемы?
Спасибо,