Perl CAM :: PDF неправильно разбивает слова - PullRequest
0 голосов
/ 06 июня 2011

Я использую модуль CAM :: PDF Perl для анализа PDF-файлов. Модуль отлично работает, за исключением одного вопроса, кажется, что слова разделены случайным образом. Есть ли способ исправить это через настройки или каким-то алгоритмическим способом собрать слова обратно вместе?

Например:

"имеет офисы, расположенные в Нью-Йорке и Дублине." -Notice Нью-Йорк

"цена, конкуренция" конкурс

Раздел кода ниже:

* * 1010

;

1 Ответ

3 голосов
/ 07 июня 2011

В целом, не всегда возможно восстановить исходный текст из PDF. Часто физическая структура не соответствует выходным данным.

В этом случае вполне возможно, что на вас влияет ручной кернинг. То есть разделение на пары символов и регулировка расстояния для получения более приятного результата - см. http://en.wikipedia.org/wiki/Kerning.

Таким образом, разрывая слова и выводя меньшие порции, которые распознаются CAM :: PDF как отдельные слова.

Если у вас есть некоторый контроль над производством PDF, вы можете поэкспериментировать со шрифтами и настройками кернинга, но это также может поставить под угрозу качество вывода.

PDF :: OCR2 , вероятно, будет обрабатывать кернинг более надежно и в целом лучше выполнять распознавание исходного текста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...