Выполнение оптического распознавания символов в PDF из ColdFusion с использованием библиотеки Java или .NET? - PullRequest
1 голос
/ 30 января 2009

Я хочу взять PDF и извлечь из него любой текст. Затем я хочу сделать его доступным, используя поиск Verity в ColdFusion для поиска по содержимому.

Есть ли какие-нибудь библиотеки, которые уже достаточно хорошо это делают? Я включаю библиотеки Java или .NET (предпочтение Java) в область видимости, так как они могут быть вызваны из CF.

Любые идеи или опыт будут с благодарностью ... спасибо!

Редактировать: Индексирование файлов PDF работает, когда текст внедрен в PDF, насколько я знаю, с CF. В PDF-файлах, с которыми мне приходится иметь дело, текст сканируется как изображение.

Ответы [ 4 ]

1 голос
/ 30 января 2009

Если у вас есть возможность запускать собственное программное обеспечение (например, Dedicated / VPS), вы можете исследовать, используя Tesseract OCR с cfexecute для преобразования PDF-файлов в текст?

1 голос
/ 30 января 2009

Verity должна иметь возможность индексировать файлы PDF по умолчанию:

http://livedocs.adobe.com/coldfusion/6/Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

0 голосов
/ 30 января 2009

В полуотносительной заметке я нашел очень аккуратный пост о кодировании и считывании штрих-кодов 2D Matrix в Coldfusion.

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

Это может решить некоторые из моих проблем, связанных с необходимостью извлечения закодированной информации, но я по-прежнему не понимаю основной части текста.

Относительно tessnet, тоже нашел версию .net. http://www.pixel -technology.com / freeware / tessnet2 / Если бы я мог использовать исходные файлы PDF вместо TIFF ..:)

0 голосов
/ 30 января 2009

Рэй Камден имеет серию из восьми частей о , работающую с PDF-файлами в ColdFusion 8 .

Часть 7 серии посвящена использованию DDX для извлечения текста из PDF.

Не уверен, что это будет работать с вашими потребностями в OCR, но все же стоит посмотреть.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...