Question

Мы пытаемся использовать parquet как общий файл между R и Python.
1. Использование spark_write_parquet для написания праке в R с

spark_write_parquet (spark_dataframe, path/to/parq_folder)

типом numericпреобразуется в float64 (вместо int), как только мы читаем файл с pyarrow, используя:

dask.dataframe.read_parquet(path/to/parq_folder, engine='pyarrow')

При написании паркета с помощью pyarrow с использованием

dask.dataframe.to_parquet (path / to / parq_folder, engine = 'pyarrow')

тип float64 преобразуется в numeric (int), а datetime64[ns] преобразуется в numeric при чтении файла с помощью spark_read_parquet.

Каков наилучший способ сохранить dtypes между R и Python?
Решает ли проблема schema в read_parquet pyarrow.connect ?(не удалось найти примеры для атрибута схемы)

Передача данных между R и Python с использованием паркета - проблема с числом по сравнению с int

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Передача данных между R и Python с использованием паркета - проблема с числом по сравнению с int

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы