Мы пытаемся использовать parquet
как общий файл между R и Python.
1. Использование spark_write_parquet
для написания праке в R с
spark_write_parquet (spark_dataframe, path/to/parq_folder)
типом numeric
преобразуется в float64
(вместо int
), как только мы читаем файл с pyarrow
, используя:
dask.dataframe.read_parquet(path/to/parq_folder, engine='pyarrow')
При написании паркета с помощью pyarrow
с использованием
dask.dataframe.to_parquet (path / to / parq_folder, engine = 'pyarrow')
тип float64
преобразуется в numeric
(int), а datetime64[ns]
преобразуется в numeric
при чтении файла с помощью spark_read_parquet
.
Каков наилучший способ сохранить dtypes между R и Python?
Решает ли проблема schema
в read_parquet pyarrow.connect ?(не удалось найти примеры для атрибута схемы)