Python - генерирует авро схему для файла csv / xls - PullRequest
0 голосов
/ 21 октября 2019

У меня есть файл XLS / CSV, который я читаю в панде. Я хочу сгенерировать схему avro из этого фрейма данных.

Я новичок в питоне и пандах. Пожалуйста, помогите.

data_frame = pd.read_excel(INPUT_PATH)

Я хочу сгенерировать схему avro из этого фрейма данных на лету. Пожалуйста, помогите

1 Ответ

0 голосов
/ 08 ноября 2019

Я нашел решение для этого. Я извлек типы данных поля в фрейме данных pandas и сохранил их под именем поля.

Сопоставил типы данных с avro-совместимыми типами данных ('object' в pandas -> 'string' в avro)

Создал шаблон схемы avro и поместил замещенные имена полей и типы данных в часть 'fields: []' и разместил его в реестре.

, например:

    schema = {"type": "record",
            "name": schemaName,
          "fields": [
              {"name": key, "type": value} for (key, value) in myDict.items()
          ]
          }

Затем можно использовать библиотеку Fastavro для анализа этой схемы

...