У меня есть большой (30 ГБ) файл твитов json, который я хотел бы проанализировать и провести некоторый анализ текста в R. Твиты были получены с использованием функции filter_stream из пакета twitteR около 2 лет назад. Вот пример (довольно стандартный): https://www.dropbox.com/s/ecrfo3etk2ingcm/WomensMarch2018.json?dl=0.
Мой компьютер останавливается каждый раз, когда я пытаюсь сделать следующее:
library(streamR)
mydata <- parseTweets("BigData.json", simplify = TRUE)
Я знаю, что мне нужно выполнить пакетную обработку файла, иначе перейти на облачный сервер с тоннами оперативной памяти, но я тоже не знаю, как это сделать. Кто-нибудь может помочь?
Редактировать: я пробовал это решение ( Чтение огромного файла JSON в R, выдает ), но получаю следующую ошибку:
Error: lexical error: invalid char in json text.
_at":"Wed Jul 21 12:54:05 +{"created_at":"Sat Jan 21 17:18:2
(right here) ------^