InftyReader - единственный, о котором я знаю. Это НЕ свободное программное обеспечение (кажется, деньги идут в некоммерческую организацию, IIRC).
http://www.sciaccess.net/en/InftyReader/
Я не знаю, почему PDF не может содержать метаданные в LaTeX? Как в: вставьте в него уравнение LaTeX! Это так сложно? (Я ничего не знаю о синтаксисе PDF, но думаю, что это возможно).
Синтаксис LaTeX - ОДИН ИСПЫТАННЫЙ И ИСТИННЫЙ СТАНДАРТ для математической нотации. Кажется удивительно глупым, что люди, которые производили MathML и другие вещи, не принимают это во внимание. InftyReader генерирует синтаксис MathML или LaTeX.
Если я хочу HTML (чистый), я использую TTH для чтения синтаксиса LaTeX. Просто работает.
ABBYY FineReader (отличная программа для распознавания текста) утверждает, что вы можете обучать программное обеспечение для математики, но это невероятно умственно (у кого есть время?)
А в Юникоде много математических символов. То, что сегодняшние читатели OCR не могут их обмануть, показывает плачевное состояние программного обеспечения и дефицит мозга в этой деятельности.
Что касается «одного символа за раз», у TeX, очевидно, есть правила относительно того, где он будет размещать символы. Они не могут писать программы, которые знают эти правила ?! TeX даже общественное достояние! Они могут просто «использовать это» в своих коммерческих продуктах.