Я использую R Studio и R 3.5.2.
Я загрузил около 250 parquet
файлов, используя sparklyr::spark_read_parquet
из S3a.
Мне нужно собрать данные из Spark(устанавливается sparklyr):
spark_install(version = "2.3.2", hadoop_version = "2.7")
Но по какой-то причине работа занимает много времени.Иногда задача распространяется на все процессоры, а иногда работает только один:
Пожалуйста, посоветуйте, как бы вы решили dplyr::collect
или sparklyr::sdf_collect
проблему «возраста».
Пожалуйста, также поймите, что я не могу предоставить вам данные, и если они небольшие, они будут работать значительно быстрее.