Мне нужно выгрузить большой набор данных из CSV-файла в созданный мной Spark Cluster в соответствии с руководством, предоставленным RStudio (https://spark.rstudio.com/examples/stand-alone-aws/),), и выполнить некоторые операции с данными в R. Я использую пакет sparklyr, иУ меня есть проблема с функцией spark_read_csv. Она отлично работает для крошечных наборов данных (CSV в примере имеет 10 строк). Как только размер увеличивается (1000 строк), функция отправляет задание spark, которое достигает 90% примерно30 минут, а затем он никогда не завершится, пока я не прерву процесс. В идеале мне нужно загрузить набор данных, содержащий ~ 2 М строк и его размер 800 МБ.
Я попытался загрузить данные с помощью PySpark, что выглядитработать хорошо и быстро, но тогда мне не удается получить данные в R для следующих шагов, которые мне нужно выполнить в R. Я пробовал на разных серверах (IBM Cloud, Amazon EC2 Instances, локальный ноутбук), но все они дают одну и ту же проблему.
sc <- spark_connect(master="spark://ip-xxxxx.eu-central-1.compute.internal:7077",
version = "2.1.0",
spark_home = "/home/ubuntu/spark-2.1.0-bin-hadoop2.7/")
train <- spark_read_csv(sc, "train", "/home/ubuntu/train.csv")
Я ожидаю, что это будет быстро для больших файлов, но это занимает слишком много времени и в конечном итоге застревает. Так какой смыслСпарк?Не должно ли быть одним из быстрых решений для работы с большим набором данных, который R не может обработать в памяти?!?