Передача данных между R и Python с использованием паркета - проблема с числом по сравнению с int - PullRequest
0 голосов
/ 11 июля 2019

Мы пытаемся использовать parquet как общий файл между R и Python.
1. Использование spark_write_parquet для написания праке в R с

spark_write_parquet (spark_dataframe, path/to/parq_folder)   

типом numericпреобразуется в float64 (вместо int), как только мы читаем файл с pyarrow, используя:

dask.dataframe.read_parquet(path/to/parq_folder, engine='pyarrow')

При написании паркета с помощью pyarrow с использованием

dask.dataframe.to_parquet (path / to / parq_folder, engine = 'pyarrow')

тип float64 преобразуется в numeric (int), а datetime64[ns] преобразуется в numeric при чтении файла с помощью spark_read_parquet.

Каков наилучший способ сохранить dtypes между R и Python?
Решает ли проблема schema в read_parquet pyarrow.connect ?(не удалось найти примеры для атрибута схемы)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...