Question

Я использую модуль CAM :: PDF Perl для анализа PDF-файлов. Модуль отлично работает, за исключением одного вопроса, кажется, что слова разделены случайным образом. Есть ли способ исправить это через настройки или каким-то алгоритмическим способом собрать слова обратно вместе?

Например:

"имеет офисы, расположенные в Нью-Йорке и Дублине." -Notice Нью-Йорк

"цена, конкуренция" конкурс

Раздел кода ниже:

* * 1010

;

dwarring · Answer 1 · 07 июня 2011

В целом, не всегда возможно восстановить исходный текст из PDF. Часто физическая структура не соответствует выходным данным.

В этом случае вполне возможно, что на вас влияет ручной кернинг. То есть разделение на пары символов и регулировка расстояния для получения более приятного результата - см. http://en.wikipedia.org/wiki/Kerning.

Таким образом, разрывая слова и выводя меньшие порции, которые распознаются CAM :: PDF как отдельные слова.

Если у вас есть некоторый контроль над производством PDF, вы можете поэкспериментировать со шрифтами и настройками кернинга, но это также может поставить под угрозу качество вывода.

PDF :: OCR2 , вероятно, будет обрабатывать кернинг более надежно и в целом лучше выполнять распознавание исходного текста.

Perl CAM :: PDF неправильно разбивает слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Perl CAM :: PDF неправильно разбивает слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов