Создание таблицы красного смещения ddl в соответствии с файлом паркета - PullRequest
0 голосов
/ 23 октября 2018

У меня есть несколько паркетных файлов, которые я хотел бы вставить в красное смещение.Я не слишком знаком со схемой паркета, но я использовал команду cli схемы parquet-tools для получения имен столбцов.Это сработало для некоторых паркетов, которые у меня есть, так как я смог успешно скопировать их в таблицы красного смещения, которые я настроил, используя схему, полученную при использовании: parquet-tools schema.

Однако яЯ сталкиваюсь с проблемой при создании соответствующей таблицы для размещения данных из паркетов, когда паркет имеет "список повторных групп".Все, что я пробовал, привело к сбою команды копирования, поэтому любая помощь будет оценена, спасибо!Вот вывод для моей схемы файла паркета:

 message spark_schema {
  optional binary guid (UTF8);
  optional binary orgName (UTF8);
  optional binary isOrgAuthoritative (UTF8);
  optional binary degree (UTF8);
  optional binary degreeGuid (UTF8);
  optional binary graduationDate (UTF8);
  optional group academicHonors (LIST) {
    repeated group list {
      optional group element {
        optional binary honor (UTF8);
        optional binary honorGuid (UTF8);
        optional binary startDate (UTF8);
        optional binary endDate (UTF8);
        optional binary isStartDateComputed (UTF8);
        optional binary isEndDateComputed (UTF8);
        optional binary reportedDate (UTF8);
      }
    }
  }
  optional binary startDate (UTF8);
  optional binary endDate (UTF8);
  optional binary isStartDateComputed (UTF8);
  optional binary isEndDateComputed (UTF8);
  optional binary reportedDate (UTF8);
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...