Как я могу открыть файл формата. json .gz в R? - PullRequest
0 голосов
/ 28 мая 2020

Я изучаю науку о данных, пишу диссертацию, используя данные обзора продуктов. Однако он упакован в файл .gz.

Имя файла при загрузке - 'xxx. json .gz', и когда я смотрю в свойства, он говорит, что тип файла - gz Archive (. gz), открывается с помощью диспетчера файлов 7-Zip.

Я обнаружил следующий код:

z <- gzfile("xxx.json.gz")
data = read.csv(z)

Но объект data теперь является списком. Все столбцы являются факторами, а столбец с текстом обзора совсем не тот. Я думаю, что часть read.csv () неверна, поскольку это должен быть файл json.

Есть у кого решение? У меня также есть URL-адрес данных, если это лучше использовать: http://deepyeti.ucsd.edu/jianmo/amazon/categoryFilesSmall/Electronics_5.json.gz

1 Ответ

2 голосов
/ 28 мая 2020

Загружая его в данный момент, у меня сейчас 5,152,500 записей, вероятно, текст обзора засоряет его

library(jsonlite)
happy_data <-stream_in(
gzcon(
   url("http://deepyeti.ucsd.edu/jianmo/amazon/categoryFilesSmall/Electronics_5.json.gz")
 )
                       )
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...