У меня есть несколько паркетных файлов, которые я хотел бы вставить в красное смещение.Я не слишком знаком со схемой паркета, но я использовал команду cli схемы parquet-tools для получения имен столбцов.Это сработало для некоторых паркетов, которые у меня есть, так как я смог успешно скопировать их в таблицы красного смещения, которые я настроил, используя схему, полученную при использовании: parquet-tools schema.
Однако яЯ сталкиваюсь с проблемой при создании соответствующей таблицы для размещения данных из паркетов, когда паркет имеет "список повторных групп".Все, что я пробовал, привело к сбою команды копирования, поэтому любая помощь будет оценена, спасибо!Вот вывод для моей схемы файла паркета:
message spark_schema {
optional binary guid (UTF8);
optional binary orgName (UTF8);
optional binary isOrgAuthoritative (UTF8);
optional binary degree (UTF8);
optional binary degreeGuid (UTF8);
optional binary graduationDate (UTF8);
optional group academicHonors (LIST) {
repeated group list {
optional group element {
optional binary honor (UTF8);
optional binary honorGuid (UTF8);
optional binary startDate (UTF8);
optional binary endDate (UTF8);
optional binary isStartDateComputed (UTF8);
optional binary isEndDateComputed (UTF8);
optional binary reportedDate (UTF8);
}
}
}
optional binary startDate (UTF8);
optional binary endDate (UTF8);
optional binary isStartDateComputed (UTF8);
optional binary isEndDateComputed (UTF8);
optional binary reportedDate (UTF8);
}