iText - получить позицию комбинации символов - PullRequest
0 голосов
/ 23 ноября 2018

Я не могу найти пример того, как использовать API iText для получения позиций (x, y) конкретной комбинации символов (например, + <) в документе PDF.Я могу найти положение строк или кусков с такими символами.Но насколько я знаю, даже если бы эти символы были отдельным словом в документе, это не гарантирует, что это будет отдельный фрагмент. </p>

1 Ответ

0 голосов
/ 23 ноября 2018

Класс, который вы ищете: RegexBasedLocationExtractionStrategy.

Вы создаете его с помощью объекта String, представляющего регулярное выражение, или напрямую передаете его регулярному выражению.

Затем вы применяете его к PdfPage, используя PdfCanvasProcessor, а затем вызываете getResultantLocations.

PdfDocument pdfDoc = new PdfDocument(new PdfReader(SRC));

RegexBasedLocationExtractionStrategy extractionStrategy = new RegexBasedLocationExtractionStrategy(@"foobar");

IList<IPdfTextLocation> locationList = new List<IPdfTextLocation>();

PdfCanvasProcessor parser = new PdfCanvasProcessor(extractionStrategy);
parser.ProcessPageContent(pdfDoc.GetFirstPage());

extractionStrategy.GetResultantLocations(); // do something with them
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...