Я пытаюсь отфильтровать сеансы GA в PySpark на основе пользовательских размеров.Данные похожи на
+--------------------+--------------------+
| fullVisitorId| cd|
+--------------------+--------------------+
| 5823179578207509663|[[1, app_tv], [36...|
| 5220700153870728639|[[107, live], [10...|
|16421406313456036559|[[1, app_tv], [36...|
|18135892068782985696|[[1, app_tv], [36...|
| 5865612025708664451|[[1, app_tv], [36...|
| 8103574485485735385|[[1, web], [36, d...|
| 6603732532553270294|[[1, web], [36, m...|
| 70498423600813735|[[1, web], [36, d...|
| 5017675391641460547|[[1, web], [36, d...|
+--------------------+--------------------+
Используя схему GA, столбец cd (customDimensions) имеет массив, содержащий несколько наборов пар индексов и значений.
Как эффективно выбратьfullVisitorIds, который имеет, например, запись с индексом = 107 и значением = 'live', как во второй записи в примере