Я хочу взять PDF и извлечь из него любой текст. Затем я хочу сделать его доступным, используя поиск Verity в ColdFusion для поиска по содержимому.
Есть ли какие-нибудь библиотеки, которые уже достаточно хорошо это делают? Я включаю библиотеки Java или .NET (предпочтение Java) в область видимости, так как они могут быть вызваны из CF.
Любые идеи или опыт будут с благодарностью ... спасибо!
Редактировать: Индексирование файлов PDF работает, когда текст внедрен в PDF, насколько я знаю, с CF. В PDF-файлах, с которыми мне приходится иметь дело, текст сканируется как изображение.