В настоящее время я работаю с pyspark и большим набором данных языковых игр, который содержит несколько образцов в виде объектов json, как показано ниже.
Каждый из этих примеров представляет собой экземпляр игры, в которой какой-то человек имеетпрослушал аудиофайл на некотором разговорном языке, а затем должен выбрать один из четырех возможных языков, который только что услышал.
Теперь я хочу объединить все эти игры, скажем, в поле «target» и в «предположении».поле, а затем подсчитать количество игр для каждой пары («цель», «угадать»).Может кто-нибудь дать мне какую-то помощь в том, как это сделать?
Я уже посмотрел pyspark Документация , но, поскольку я довольно новичок в python / pyspark, это не так.я действительно не понимаю, как работает агрегатная функция.
{"target": "Turkish", "sample": "af0e25c7637fb0dcdc56fac6d49aa55e",
"choices": ["Hindi", "Lao", "Maltese", "Turkish"],
"guess": "Maltese", "date": "2013-08-19", "country": "AU"}