Я ищу кодирование user_ids в длинном списке записей о вызовах.Части этих записей, которые занимают больше всего места, являются символами для звонящего и получателя.Я создам карту, которая назначит наиболее активным абонентам более короткие символы - это поможет уменьшить общий размер файлов (и, следовательно, время ввода-вывода).
Я заранее знаю, сколько разкаждый символ будет использоваться --- другими словами, я знаю распределение относительной вероятности.Кроме того, не важно, чтобы создаваемые коды были «без префиксов», например коды Хаффмана.Итак, какова лучшая схема кодирования, т. Е. Та, которая обеспечивает наибольшее сжатие и для которой существует быстрая реализация?
Ответ должен указывать не только на схему сжатия, но и на реализациюэта схема кодирования.