Я пытаюсь проанализировать 3-гигабайтный файл JSON для определенных столбцов.Столбцы должны быть извлечены из файла json twitter как «full_text», «create_at», «user.location», «id».
Панды в ноутбуке jupyter вешают мой компьютер на несколько часов.поэтому я использую скрипт оболочки bash для более быстрой обработки.
мой код для извлечения столбцов 'full_text' выглядит следующим образом.
%%bash -s "$raw_data_path" "$store_file"
grep -Po '"full_text":.*?[^\\]",' < $1 > $2
На это ссылается из URL: Синтаксический анализ JSON сИнструменты Unix Мне нужны четыре столбца, как я уже говорил, и как загрузить их в кадр данных в блокноте jupyter.
Обратите внимание, что я сохраняю отфильтрованные результаты в новый файл json, но это большекак контейнер строк, и извлеченные результаты для full_text
выглядят следующим образом.
"full_text": "Good news for hockey in Pakistan as Haier Pakistan becomes the main sponsor of the Pakistan Hockey team .......,
"full_text": "RT @GerardBattenMEP: How low we have sunk. Our Govnt cannot give sanctuary to a woman persecuted by ......,
"full_text": "How low we have sunk. Our Govnt cannot give sanctuary to a woman persecuted by moronic savages in Pakistan because we have so many of the same moronic savaged .......,