Как мне прочитать разделенный файл паркета в R со стрелкой (без искры)
Ситуация
- созданные файлы паркета с помощью трубы Sparkи сохранить на S3
- для чтения с RStudio / RShiny с одним столбцом в качестве индекса для дальнейшего анализа
Структура файла паркета
файлы паркета, созданные из моего Spark, состоят из нескольких частей
tree component_mapping.parquet/
component_mapping.parquet/
├── _SUCCESS
├── part-00000-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00001-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00002-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00003-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00004-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── etc
Как мне прочитать этот component_mapping.parquet в R?
Что я пробовал
install.packages("arrow")
library(arrow)
my_df<-read_parquet("component_mapping.parquet")
, но это не с ошибкой
IOError: Cannot open for reading: path 'component_mapping.parquet' is a directory
Это работает, если я просто читаю один файл каталога
install.packages("arrow")
library(arrow)
my_df<-read_parquet("component_mapping.parquet/part-00000-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet")
, но мне нужно загрузить все для запросаэто
То, что я нашел в документации
В документации Apache Arrow https://arrow.apache.org/docs/r/reference/read_parquet.html и https://arrow.apache.org/docs/r/reference/ParquetReaderProperties.html Я обнаружил, что есть некоторые свойствадля команды read_parquet (), но я не могу заставить ее работать и не могу найти никаких примеров.
read_parquet(file, col_select = NULL, as_data_frame = TRUE, props = ParquetReaderProperties$create(), ...)
Как мне это сделать? установить свойства правильно, чтобы прочитать полный каталог?
# should be this methods
$read_dictionary(column_index)
or
$set_read_dictionary(column_index, read_dict)
Помощь будет очень признателен