В качестве обновления и частичного ответа: я не добился прогресса в исходной проблеме, но у меня был гораздо больший успех с использованием пакета jsonlite, который в достаточной степени способен читать в больших и сложных файлах .json, содержащих данные Tweet.
library(jsonlite)
Я использовал функцию fromJSON()
как подробно здесь . Я обнаружил, что мне нужно отредактировать исходный файл .json, чтобы он соответствовал требуемой структуре, начиная и заканчивая файл квадратными скобками ([]) и добавляя запятую перед каждым разрывом строки в конце каждого твита. Затем:
tweetsdf <- fromJSON("india1_2019090713.json", simplifyDataFrame = TRUE, flatten = TRUE)
simplifyDataFrame
обеспечивает сохранение содержимого в виде фрейма данных с одной строкой на твит, а flatten
сворачивает большинство вложенных атрибутов Tweet для разделения столбцов длякаждое вспомогательное значение, а не создание столбцов, полных громоздких структур списков.