Когда я пытаюсь извлечь текст из моих файлов PDF, кажется, что я случайно вставляю пробелы между несколькими словами.
Я использую pdfbox-app-1.6.0.jar (последняя версия) в следующем примерефайл в разделе «Загрузки» на этой странице: http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
Я пробовал использовать несколько других файлов PDF, и похоже, что он работает на нескольких страницах.
Я делаю следующее:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~ / Desktop / ped training pdf.pdf
в загруженном файле, и вы увидите, что пробелы в следующей вставлены неправильно врезультат на консоли: «• Если дети могут ходить в школу безопасно, это может уменьшить заторы.»
«• Развивает хороший навык для дальнейшей жизни."
"www.sheff ield.gov.uk "
" Подумайте вперед !, который основан на "
и т. д. и т. д.
Как вы можете видеть, несколько слов выше имеютпробелы между ними без причины, которую я могу понять.
Я нахожусь на Ubuntu и использую Sun JDK 1.6.
Я пробовал это на нескольких различных файлах PDF и пытался найти решение на форумах, были похожие ошибки, но все, казалось, были устранены.
Любая помощь или если у кого-то есть такая же проблема, пожалуйста, прокомментируйте.Это вызывает большую проблему в правильной индексации контента для поиска.