Открытие файла .gz с закодированным содержимым? - PullRequest
0 голосов
/ 12 марта 2019

У меня есть файл .gz с именем "hindencorp05.plaintext.gz". Когда я открыл его и распечатал его содержимое, используя следующие команды:

import gzip
f = gzip.open('data/hindencorp05.plaintext.gz','r')
buf = f.read()
print(buf[:4000])

Следующее было напечатано содержание:

б "wikiner2013inflected \ t1- 1 \ t1.000 \ tSharaabi \ т \ xe0 \ xa4 \ XB6 \ xe0 \ xa4 \ XB0 \ xe0 \ xa4 \ XBE \ xe0 \ xa4 \ XAC \ xe0 \ xa5 \ x80 \ nted \ T1-1 \ t1.0 \ Политики не имеют разрешения делать то, что нужно сделать. \ t \ xe0 \ xa4 \ xb0 \ xe0 \ xa4 \ xbe \ xe0 \ xa4 \ x9c \ xe0 \ xa4 \ xa8 \ xe0 \ xa5 \ x80 \ xe0 \ xa4 \ xa4 \ xe0 \ xa4 \ xbf \ xe0 \ xa4 \ x9c \ xe0 \ xa5 \ x8d \ xe0 \ xa4 \ x9e \ xe0 \ xa5 \ x8b \ xe0 \ xa4 \ x82 \ xe0 \ xa4 \ x95 \ xe0 \ xa5 \ x87 xe0 \ xa4 \ xaa \ xe0 \ xa4 \ xbe \ xe0 \ xa4 \ xb8 \ xe0 \ xa4 \ x9c \ xe0 \ xa5 \ x8b \ xe0 \ xa4 \ x95 \ xe0 \ xa4 \ xbe \ xe0 \ xa4 \ xb0 \ xe0 xa5 \ x8d \ xe0 \ xa4 \ xaf \ xe0 \ xa4 \ x95 \ xe0 \ xa4 \ xb0 \ xe0 \ xa4 \ xa8 \ xe0 \ xa4 \ xbe \ xe0 \ xa4 \ x9a \ xe0 \ xa4 \ xbe \ xe0 \ xa4 xb9 \ xe0 \ xa4 \ xbf \ xe0 \ xa4 \ x8f, \ xe0 \ xa4 \ xb5 \ xe0 \ xa4 \ xb9 \ xe0 \ xa4 \ x95 \ xe0 \ xa4 \ xb0 \ xe0 \ xa4 \ xa8 \ xe0 \ x5 \ x5 \ xe0 \ xa4 \ x95 \ xe0 \ xa4 \ xbf \ xe0 \ xa4 \ x85 \ xe0 \ xa4 \ xa8 \ xe0 \ xa5 \ x81 \ xe0 \ xa4 \ xae \ xe0 \ xa4 \ xa4 \ xe0 \ xa4 \ xbf \ xe0 \ xa4 \ xa8 \ xe0 \ xa4 \ xb9 \ xe0 \ xa5 \ x80 \ xe0 \ xa4 \ x82 \ xe0 \ xa4 \ xb9 \ xe0 \ xa5 \ x88. \ nted \ t1-1 \ t1.0 \ tМне хотелось бы рассказать вам об одном таком ребенке, \ t \ xe0 \ xa4 \ xae \ xe0 \ xa4 \ x88 \ xe0 \ xa4 \ x86 \ xe0 \ xa4 \ xaa \ xe0 \ xa4 \ x95 \ xe0 \ xa5 \ x8b \ xe0 \ xa4 \ x90 \ xe0 \ xa4 \ xb8 \ xe0 \ xa5 \ x87 \ xe0 \ xa4 \ xb9 \ xe 0 \ xa5 \ x80 \ xe0 \ xa4 \ x8f \ xe0 \ xa4 \ x95 \ xe0 \ xa4 \ xac \ xe0 \ xa4 \ x9a \ xe0 \ xa5 \ x8d \ xe0 \ xa4 \ x9a \ xe0 \ xa5 \ x87 \ xe0 \ xa4 \ x95 \ xe0 \ xa5 \ x87 \ xe0 \ xa4 \ xac \ xe0 \ xa4 \ xbe \ xe0 \ xa4 \ xb0 \ xe0 \ xa5 \ x87 \ xe0 \ xa4 \ xae \ xe0 \ xa5 \ x87 \ xe0 \ xa4 \ x82 \ xe0 \ xa4 \ xac \ xe0 \ xa4 \ xa4 \ xe0 \ xa4 \ xbe \ xe0 \ xa4 \ xa8 \ xe

Я думаю, что это какой-то тип кодировки. Пожалуйста, помогите мне прочитать этот файл при расшифровке.

...