Я загружаю файл ИЛИ C размером 40 МБ из хранилища объектов OCI в простое искровое задание. Файл загружается, но на получение результата уходит 20 минут. Я вижу, что один и тот же фрагмент журнала повторяется для журналов драйверов и исполнителей каждую минуту [см. Прикрепленные журналы ниже.] Похоже, файл ИЛИ C загружается в пакет записей? Любая помощь будет оценена?
Общее количество записей : 108550083
EX запись : строка (s1 = 'vezpoxvqtgmdtwn', dt = '1995 -09-06 01:42:54 ', i1 = 210608706, s2 = '19 .111.163.61', s3 = 'xchxtfljgfcmposjwml'),
код
parser.add_argument("--input", required=True)
parser.add_argument("--output", required=True)
args = parser.parse_args()
spark = SparkSession.builder.appName("Convert ORC to Parquet").getOrCreate()
df = spark.read.format("orc").load(args.input)
df.show()
Журнал драйверов : Журнал исполнителя :