Я пытаюсь распаковать некоторые .json.gz
файлы, но gzip
добавляет некоторые символы к нему и, следовательно, делает его нечитаемым для JSON.
В чем, по-вашему, проблема, и как я могу это сделать?решить эту проблему?
Если для распаковки файла используется программное обеспечение, такое как 7zip, эта проблема исчезнет.
Это мой код:
with gzip.open('filename' , 'rb') as f:
json_content = json.loads(f.read())
Это ошибкаЯ получаю:
Exception has occurred: json.decoder.JSONDecodeError
Extra data: line 2 column 1 (char 1585)
Я использовал этот код:
with gzip.open ('filename', mode='rb') as f:
print(f.read())
и понял, что файл начинается с b'
(как показано ниже):
b'{"id":"tag:search.twitter.com,2005:5667817","objectType":"activity"
Я думаю b'
- это то, что делает файл неработоспособным для следующего этапа.Есть ли у вас решение удалить b'
?Существуют миллионы этого заархивированного файла, и я не могу сделать это вручную.
Я загрузил образец этих файлов по следующей ссылке , всего несколько файлов json.gz