После извлечения данных для моего процесса ETL я получаю файл JSON, в котором некоторые поля являются списками. В моем примере данные о билетах поддержки и поле, которое является списком, является cc_emails. Теперь я хочу создать отношение «многие ко многим», чтобы у меня был Dataframe для заявок, cc_emails и отношений. Это необходимо автоматизировать, поэтому при получении новых данных автоматически создаются новые идентификаторы и т. Д.
Я получил два Dataframes с билетами и cc_emails.
билеты:
+---+------------+--------------------+
| | id | created_at |
+---+------------+--------------------+
| 0 | 18 |2015-08-17T12:02:50Z|
| 1 | 17 |2015-08-17T12:02:06Z|
+---+------------+--------------------+
cc_emails:
+---+------------+--------------------+
| | ticket_id | cc_emails |
+---+------------+--------------------+
| 0 | 18 |user@cc.com |
| 1 | 18 |user2@cc.com |
| 0 | 17 |test@cc.com |
| 1 | 17 |test2@cc.com |
+---+------------+--------------------+
Это формат JSON, который я получаю при извлечении данных:
[
{
"cc_emails" : ["user@cc.com", "user2@cc.com"],
"id" : 18,
"created_at" : "2015-08-17T12:02:50Z"
},
{
"cc_emails" : ["test@cc.com", "test2@cc.com"],
"id" : 17,
"created_at" : "2015-08-17T12:02:06Z"
}
]
Цель состоит в том, чтобы у меня не было, например, другого билета с идентификатором и, возможно, таких же электронных писем в кадре данных cc_emails, чтобы избежать репликации и избыточности.