У меня есть файл с большим количеством текста. Я прочитал текст, подобный этому, и поместил его в byteArray с python 3 :
for lines in file:
txt = str(lines)
byteArr = bytearray(txt, "utf-8")
Теперь мой вопрос состоит в том, сколько байтов должно быть возможно сжать byteArr, если рассматривается как источник без памяти и не использует статистическую избыточность, а использует оптимальное кодирование ?
РЕДАКТИРОВАТЬ: При поиске Я обнаружил, что данные без статистической избыточности не могут быть сжаты дальше, чем их энтропия. Так что, если я вычислю энтропию byteArr, у меня должен быть ответ?
Спасибо!