Как получить текст из таблицы в PDF-файл? - PullRequest
0 голосов
/ 06 января 2020

Я хочу получить текст из таблицы в файле PDF? enter image description here

Я не могу получить ячейку в таблице. Я пытался запустить пример Leadtools, но он не может автоматически определять ячейку.

https://www.leadtools.com/help/leadtools/v20/dh/fo/iocrtablezonemanager.html

Можете ли вы дать мне совет? Спасибо всем

1 Ответ

0 голосов
/ 09 января 2020

В таблицах, похожих на опубликованное вами изображение, вы сможете найти ячейки с помощью метода IOcrPage.TableZoneManager.AutoDetectCells (). Этот метод используется в проекте OcrMultiEngineDemo, который поставляется с текущей версией LEADTOOLS.

Вот как вы можете его протестировать:

  1. Запустите демонстрацию OCR Multi-Engine.
  2. Выберите OmniPage OCR Engine
  3. Откройте файл изображения или PDF, содержащий таблицу.
  4. Нарисуйте зону вокруг таблицы.
  5. Выберите «Обновить зоны…» из меню OCR-> Zones.
  6. В диалоговом окне «Update Zones» нажмите «Detect Cells», как показано на прилагаемом изображении.

Table Cells

Если это не дает ожидаемого результата, отправьте фактические файлы, с которыми вы тестируете, на support@leadtools.com и объясните, как именно вы тестировали.

...