Как я могу нарезать словарь по ключу в пределах json данных в pyspark? - PullRequest
0 голосов
/ 23 апреля 2020

Как я могу нарезать атрибут внутри атрибута в json данных?

Ниже я опубликовал пример фрагмента одного набора бизнес-данных из yelp, который импортируется в apache spark. Я знаю, как взять часть информации на основе атрибута до сих пор. Однако, как я могу нарезать информацию атрибута в атрибуте. У меня есть следующий код ниже

rdd.filter(lambda x: x['attributes'].get('Alcohol')).take(5)

Этот код будет возвращать данные со словом «Алкоголь» в «атрибутах»

Однако, как мне взять часть данных, чтобы показать все атрибуты, которые содержат «алкоголь», но также «ложь» в этой части?

Я попробовал этот код ниже, опубликованный другим пользователем, но он все еще показывает, является ли он истинным или ложным.

rdd.filter(lambda x: x['attributes'].get('Alcohol', False)).take(5)

Я ожидал бы, что выходные данные покажут все компании с «Алкоголем» в «атрибутах», а внутри них - «Ложь»

Надеюсь, это имеет смысл. Спасибо

[{'business_id': 'vyutuvybuyb',
'attributes': {'Alcohol': False,
   'Music': {'dj': False,
      'background_music': True,
      'no_music': False,
      'karaoke': False,
      'live': False,
      'video': False,
      'jukebox': False},
   'RestaurantsGoodForGroups': True,
   'Caters': False,
'hours': {'Monday': '11:00-1:00',
   'Tuesday': '11:00-1:00',
   'Friday': '11:00-1:00',
   'Wednesday': '11:00-1:00',
   'Thursday': '11:00-1:00',
   'Sunday': '11:00-0:00',
   'Saturday': '11:00-2:00'}}]
...