Я изучаю науку о данных, пишу диссертацию, используя данные обзора продуктов. Однако он упакован в файл .gz.
Имя файла при загрузке - 'xxx. json .gz', и когда я смотрю в свойства, он говорит, что тип файла - gz Archive (. gz), открывается с помощью диспетчера файлов 7-Zip.
Я обнаружил следующий код:
z <- gzfile("xxx.json.gz")
data = read.csv(z)
Но объект data теперь является списком. Все столбцы являются факторами, а столбец с текстом обзора совсем не тот. Я думаю, что часть read.csv () неверна, поскольку это должен быть файл json.
Есть у кого решение? У меня также есть URL-адрес данных, если это лучше использовать: http://deepyeti.ucsd.edu/jianmo/amazon/categoryFilesSmall/Electronics_5.json.gz