Вам не нужно разбивать или обрезать строки из файла PDF, чтобы извлечь какой-либо текст. Aspose.PDF API поддерживает извлечение текста эффективно. Пожалуйста, попробуйте использовать приведенный ниже фрагмент кода для извлечения текста из документа PDF.
// Open document
Document pdfDocument = new Document("input.pdf");
// Create TextAbsorber object to find all instances of the input search phrase
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("SEARCH STRING");
// Accept the absorber for first page of document
pdfDocument.getPages().accept(textFragmentAbsorber);
// Get the extracted text fragments into collection
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.getTextFragments();
// Loop through the Text fragments
for (TextFragment textFragment : (Iterable<TextFragment>) textFragmentCollection) {
// Iterate through text segments
for (TextSegment textSegment : (Iterable<TextSegment>) textFragment.getSegments()) {
System.out.println("Text :- " + textSegment.getText());
}
}
Для получения дополнительной информации о извлечении текста, вы можете посетить Поиск и получение текста со страниц документа PDF . Если у вас возникнут какие-либо проблемы, пожалуйста, поделитесь с нами исходным файлом PDF, указав текст, который вы хотите извлечь.
PS: Я работаю с Aspose в качестве разработчика Evangelist.