Вы, вероятно, хотите пропустить заголовки, в которых более X% символов НЕ находятся в кодовых блоках, назначенных сценариям тех языков, которые вы можете понять. Например, если вы не можете читать греческий, русский, арабский, иврит, армянский, китайский, японский, корейский, индийский языки и т. Д., Отклоните заголовки, если более (скажем) 10% символов не находятся в диапазоне от U + 0000 до U + 0233. Это оставляет вас с латинским алфавитом. Идея оставить маржу в 10% для знаков препинания; также в технических статьях могут использоваться символы, отсутствующие в основном алфавите.