Я хочу хранить веб-страницы в сжатых текстовых файлах (CSV). Чтобы добиться оптимального сжатия, я хотел бы предоставить набор из 1000 веб-страниц. Затем библиотека должна потратить некоторое время на создание оптимального «словаря» для этого контента. Одна очевидная «словарная» запись может быть <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
, которая может храниться как% 1 или что-то подобное, потому что она присутствует почти на всех веб-страницах. Создав подобный словарь, мой коэффициент сжатия должен составлять 99%.
Мой вопрос: существует ли библиотека для этого в Windows с MIT или существует подобное либеральное лицензирование? Если нет, то есть ли какие-нибудь библиотеки сжатия общего назначения, которые вы бы порекомендовали. Я попытался немного с zlib, но он выводит двоичные данные. Если бы я преобразовал эти двоичные данные в текст, я опасаюсь, что результат может быть длиннее исходного текста.
РЕДАКТИРОВАТЬ: мне нужно иметь возможность хранить текст в файлах CSV и все еще иметь возможность импортировать их в базу данных или даже в Excel.