На основании вашего первого заявления,
Разбивает страницы на слова и теги HTML
Похоже, что ваш счет символов выполняется после вставки разметки. Это будет означать, что, например, длинные URL-адреса в ссылках будут сравниваться с длиной страницы, которую вы пытаетесь достичь. Однако вы не сказали, как изначально создавались статьи.
Я бы предложил поискать точку в процессе создания статьи, где вы могли бы изучить необработанный текст. Рассматривая фактическое содержимое (без разметки) как набор абзацев и оценивая вертикальную длину каждого абзаца на основе типичного количества символов в строке, вы можете придать более согласованный размер.
Я бы также рассмотрел только разрыв между абзацами, чтобы объединить единицы мысли на одной странице. Выступая в роли читателя, я действительно ненавижу посещать сайты, которые заставляют меня делать паузу, нажимать кнопку или ссылку и ждать перезагрузки страницы, и все это в середине одной мысли.