Сбой разбора с большими объектами JSON (rtweet) - PullRequest
0 голосов
/ 04 июля 2019

Я пытаюсь проанализировать большие файлы JSON с помощью функции parse_stream() из библиотеки rwteet.Это терпит неудачу с длинными объектами JSON.

Эти объекты JSON имеют тенденцию генерировать ошибку, когда они имеют значительный размер (200 МБ-1 ГБ).Моя функция потока выглядит следующим образом.

    stream_tweets(
        "#google,#apple",
        timeout = 60*60*6, #six hours
        file_name = json_filename,
        dir= "./raw_tweets/"
      )

    djt <- parse_stream(json_filename)

Я не включил параметр parse = TRUE, потому что в документации говорится, что это не рекомендуется для больших объектов JSON.Во всяком случае, я также пытался транслировать с parse = TRUE и также не удается на parse_stream().Я получаю следующую ошибку:

Error: parse error: unallowed token at this point in JSON text
      ELDkx4-i7ysCAR_.mp4?tag=10"},,{"bitrate":2176000,"content_ty
                 (right here) ------^

Я думал, что это двойная запятая между двумя фигурными скобками.Я искал в Atom, используя ctrl + f строку ELDkx4-i7ysCAR_.mp4?tag=10"}, и в единственном результате не было ,,.

Почему я получаю эту ошибку синтаксического анализа, кто-то имелСамм проблему и исправить это как-то?

...