В целом, не всегда возможно восстановить исходный текст из PDF. Часто физическая структура не соответствует выходным данным.
В этом случае вполне возможно, что на вас влияет ручной кернинг. То есть разделение на пары символов и регулировка расстояния для получения более приятного результата - см. http://en.wikipedia.org/wiki/Kerning.
Таким образом, разрывая слова и выводя меньшие порции, которые распознаются CAM :: PDF как отдельные слова.
Если у вас есть некоторый контроль над производством PDF, вы можете поэкспериментировать со шрифтами и настройками кернинга, но это также может поставить под угрозу качество вывода.
PDF :: OCR2 , вероятно, будет обрабатывать кернинг более надежно и в целом лучше выполнять распознавание исходного текста.