Фильтрация вложенных массивов по значениям PySpark - PullRequest
0 голосов
/ 29 ноября 2018

Я пытаюсь отфильтровать сеансы GA в PySpark на основе пользовательских размеров.Данные похожи на

+--------------------+--------------------+                                     
|       fullVisitorId|                  cd|
+--------------------+--------------------+
| 5823179578207509663|[[1, app_tv], [36...|
| 5220700153870728639|[[107, live], [10...|
|16421406313456036559|[[1, app_tv], [36...|
|18135892068782985696|[[1, app_tv], [36...|
| 5865612025708664451|[[1, app_tv], [36...|
| 8103574485485735385|[[1, web], [36, d...|
| 6603732532553270294|[[1, web], [36, m...|
|   70498423600813735|[[1, web], [36, d...|
| 5017675391641460547|[[1, web], [36, d...|
+--------------------+--------------------+

Используя схему GA, столбец cd (customDimensions) имеет массив, содержащий несколько наборов пар индексов и значений.

Как эффективно выбратьfullVisitorIds, который имеет, например, запись с индексом = 107 и значением = 'live', как во второй записи в примере

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...