У меня есть PDF, и я хочу извлечь содержащийся в нем текст.Я пробовал несколько разных библиотек PDF, и все они в основном дают одинаковые результаты.При извлечении текста из двухстраничного документа, содержащего буквально сотни слов, возвращается только дюжина или около того слов из заголовка.
Есть ли способ определить, является ли текст, который я ищу, текстом илирастровое изображение текста?Я думаю о чем-то вроде «Инспектирующего элемента» Firebug, но на этом этапе я приму любое решение, которое скажет, на что я действительно смотрю.
Этот проект действительно не оправдывает попытки использоватьавтоматическое чтение печатного материалаИ хотя это простое решение, использование полей в PDF - это не вариант, так как генератор файла является третьей стороной.