Я пытаюсь прочитать дамп MongoDB в фрейм данных.Дамп в формате JSON, за исключением элемента Date .Вот пример JSON:
{
"_id": {
"$binary": "AAAB92tW4kSWbIyLJj/zWg==",
"$type": "03"
},
"_t": "VisitData",
"ContactId": {
"$binary": "qc4p+OQsEUumAtDWxvSZuA==",
"$type": "03"
},
"StartDateTime": Date(1541452223793),
"EndDateTime": Date(1541452682373),
"SaveDateTime": Date(1541453891548),
"ChannelId": {
...
Я хотел бы получить дату в допустимом формате, чтобы я мог правильно перечитать ее в кадр данных.
Я попытался прочитать файл как одну большую строку, но это с треском провалилось, так как я считаю, что файл слишком большой.Я также попытался прочитать его как CSV, который работает настолько, насколько он создает фрейм данных, но столбцы повсюду, и я не уверен, что с ним делать после этого, чтобы получить действительный JSON,К тому же, это просто неправильный путь.
По сути, я не уверен, как выполнить предварительную обработку файла в pyspark.Предложения по правильному способу сделать это крайне необходимы.