Пакетная обработка файла JSON 30 ГБ в R - PullRequest
1 голос
/ 23 марта 2019

У меня есть большой (30 ГБ) файл твитов json, который я хотел бы проанализировать и провести некоторый анализ текста в R. Твиты были получены с использованием функции filter_stream из пакета twitteR около 2 лет назад. Вот пример (довольно стандартный): https://www.dropbox.com/s/ecrfo3etk2ingcm/WomensMarch2018.json?dl=0.

Мой компьютер останавливается каждый раз, когда я пытаюсь сделать следующее:

library(streamR)
mydata <- parseTweets("BigData.json", simplify = TRUE)

Я знаю, что мне нужно выполнить пакетную обработку файла, иначе перейти на облачный сервер с тоннами оперативной памяти, но я тоже не знаю, как это сделать. Кто-нибудь может помочь?

Редактировать: я пробовал это решение ( Чтение огромного файла JSON в R, выдает ), но получаю следующую ошибку:

Error: lexical error: invalid char in json text.
          _at":"Wed Jul 21 12:54:05 +{"created_at":"Sat Jan 21 17:18:2
                     (right here) ------^
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...