Разбор JSON с помощью инструментов Bash - PullRequest
0 голосов
/ 17 ноября 2018

Я пытаюсь проанализировать 3-гигабайтный файл JSON для определенных столбцов.Столбцы должны быть извлечены из файла json twitter как «full_text», «create_at», «user.location», «id».

Панды в ноутбуке jupyter вешают мой компьютер на несколько часов.поэтому я использую скрипт оболочки bash для более быстрой обработки.

мой код для извлечения столбцов 'full_text' выглядит следующим образом.

%%bash -s "$raw_data_path" "$store_file"
grep -Po '"full_text":.*?[^\\]",' < $1 > $2

На это ссылается из URL: Синтаксический анализ JSON сИнструменты Unix Мне нужны четыре столбца, как я уже говорил, и как загрузить их в кадр данных в блокноте jupyter.

Обратите внимание, что я сохраняю отфильтрованные результаты в новый файл json, но это большекак контейнер строк, и извлеченные результаты для full_text выглядят следующим образом.

"full_text": "Good news for hockey in Pakistan as Haier Pakistan becomes the main sponsor of the Pakistan Hockey team .......,
"full_text": "RT @GerardBattenMEP: How low we have sunk. Our Govnt cannot give sanctuary to a woman persecuted by ......,
"full_text": "How low we have sunk. Our Govnt cannot give sanctuary to a woman persecuted by moronic savages in Pakistan because we have so many of the same moronic savaged .......,

1 Ответ

0 голосов
/ 17 ноября 2018

Первый ответ на связанный вопрос должен дать вам подсказку, как обрезать 4 колонки

https://stackoverflow.com/a/1955555/1542667

jq -r '[.full_text, .col2, .col3, .col4] | @csv' < $raw_data_path > $store_file
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...