Позвольте мне объяснить на примере.
У нас есть следующий текст:
«Comme Il Faut был основан в 1927 году. Табачная компания наиболее известна своей репутацией производителя индивидуальных торговых марок для своих партнеров по всему миру».
Это обычный текст. Но следующий текст:
«CommeIlFaut был основан в 1927 году. Табачная компания является наиболее известной благодаря своей репутации по производству индивидуальных брендов для своих партнеров по всему миру»
Это текстовая аномалия: опечатки, слова без пробела, может быть, что-то еще.
Как искать такие аномалии?
Какие существуют алгоритмы для этого (статистические)?
Желательно, чтобы результат был в процентах: например, 80% от аномалий.
Спасибо.