Джон Феминелла понял все правильно, но я думаю, что есть еще что сказать.
Энтропия Шеннона основана на вероятности, а вероятность всегда в глазах смотрящего.
Вы сказали, что 1 и 0 одинаково вероятны (0,5). Если это так, то строка 100 1 с, за которой следует 100 0, имеет вероятность 0,5 ^ 200, из которых -log (основание 2), как и ожидалось, составляет 200 бит. Однако энтропия этой строки (в терминах Шеннона) - ее информационное содержание, умноженное на ее вероятность, или 200 * 0,5 ^ 200, все еще очень небольшое число.
Это важно, потому что если вы выполняете кодирование длины серии для сжатия строки, в случае этой строки она получит небольшую длину, но усреднена по всем 2 ^ 200 строкам, это не будет хорошо. Если повезет, оно составит в среднем около 200, но не менее.
С другой стороны, если вы посмотрите на свою исходную строку и скажете, что она настолько поразительна, что тот, кто сгенерировал ее, скорее всего, сгенерирует больше, чем эта, то вы действительно говорите, что ее вероятность больше 0,5 ^ 200, так что вы делая другие предположения об исходной вероятностной структуре генератора строки, а именно о том, что она имеет меньшую энтропию, чем 200 бит.
Лично я нахожу эту тему действительно интересной, особенно если взглянуть на колмогоровскую (алгоритмическую) информацию. В этом случае вы определяете информационное содержимое строки как длину самой маленькой программы, которая могла бы ее сгенерировать. Это приводит к всевозможным представлениям о разработке программного обеспечения и проектировании языков.
Надеюсь, это поможет, и спасибо за ваш вопрос.