Я хочу сжать .txt
файлы, содержащие даты в формате yyyy-mm-dd hh:mm:ss
и английские слова, которые иногда имеют тенденцию повторяться в разных строках.
Я прочитал несколько статей об алгоритме сжатия и обнаружил, что в моем словаре кейсовкодирование на основе лучше, чем кодирование на основе энтропии.Поскольку я хочу реализовать алгоритм самостоятельно, мне нужно что-то не очень сложное.Поэтому я обратил внимание на LZW и LZ77, но не могу выбирать между ними, потому что выводы из найденных статей противоречивы.Согласно некоторым статьям, у LZW более высокая степень сжатия, а по другим - лидер LZ77.Так что вопрос в том, какой из них, скорее всего, будет лучше в моем случае?Есть ли более простые в реализации алгоритмы, которые могут быть полезны для моей цели?