Чтение 40 МБ ИЛИ C файла занимает 20 минут на спарк кластере - PullRequest
0 голосов
/ 27 апреля 2020

Я загружаю файл ИЛИ C размером 40 МБ из хранилища объектов OCI в простое искровое задание. Файл загружается, но на получение результата уходит 20 минут. Я вижу, что один и тот же фрагмент журнала повторяется для журналов драйверов и исполнителей каждую минуту [см. Прикрепленные журналы ниже.] Похоже, файл ИЛИ C загружается в пакет записей? Любая помощь будет оценена?

Общее количество записей : 108550083

EX запись : строка (s1 = 'vezpoxvqtgmdtwn', dt = '1995 -09-06 01:42:54 ', i1 = 210608706, s2 = '19 .111.163.61', s3 = 'xchxtfljgfcmposjwml'),

код

parser.add_argument("--input", required=True)
parser.add_argument("--output", required=True)
args = parser.parse_args()
spark = SparkSession.builder.appName("Convert ORC to Parquet").getOrCreate()
df = spark.read.format("orc").load(args.input)
df.show()

Журнал драйверов : enter image description here Журнал исполнителя : enter image description here

enter image description here enter image description here enter image description here enter image description here

1 Ответ

0 голосов
/ 27 апреля 2020

Можете ли вы поделиться SparkUI во время выполнения кода, это поможет получить более глубокое понимание. Пример экрана прилагается.

Похоже, что у вас достаточно памяти, учитывая размер файла, с которым вы работаете, и это не должно быть проблемой, либо вы можете указать память драйвера и память исполнителя

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...