Сбой Pyspark на кластере Datapro c для небольшого набора данных - PullRequest
0 голосов
/ 20 июня 2020

Я использую блокнот jupyter, созданный на кластере gcp datapro c, состоящем из 3 рабочих узлов и 1 главного узла типа «N1-standard2» (2 ядра, 7,5 ГБ ОЗУ), для моего проекта по науке о данных. Набор данных состоит из ~ 0,4 млн строк. Я вызвал функцию groupBy со столбцом groupBy, состоящим только из 10 уникальных значений, так что выходной фрейм данных должен состоять всего из 10 строк!

Подозрительно, что он вылетает каждый раз, когда я вызываю grouped_df.show() или grouped_df.toPandas(), где grouped_df получается после вызова groupBy() и функции sum ().

Это должно быть легкой прогулкой для Spark, который изначально создавался для обработки больших наборов данных. Я прикрепляю используемую мной конфигурацию искры, которую я определил в функции.

builder = SparkSession.builder \
    .appName("Spark NLP Licensed") \
    .master("local[*]") \
    .config("spark.driver.memory", "40G") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.kryoserializer.buffer.max", "2000M") \
    .config("spark.jars.packages", "com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.1") \
    .config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem") \
    .config("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")
return builder.getOrCreate()

`Это ошибка, которую я получаю. Пожалуйста помоги. введите описание изображения здесь

1 Ответ

1 голос
/ 21 июня 2020

Помогла установка мастер-адреса в setMaster (). Теперь я могу загружать данные размером до 20 ГБ и выполнять операции groupBy () в кластере. Спасибо @ mazaneicha.

...