как получить указанный текст pos через xpdf или mupdf? - PullRequest
2 голосов
/ 22 сентября 2011

Я хочу извлечь указанный текст в pdf-файлах и положение текста.

Я знаю, что xpdf и mupdf могут анализировать pdf-файлы, поэтому я думаю, что они могут помочь мне выполнить эту задачу.

Но как использовать эти две библиотеки для получения позиции текста?

Ответы [ 2 ]

1 голос
/ 02 декабря 2011

Mupdf поставляется с несколькими инструментами, один из которых pdfdraw.

Если вы используете pdfdraw с опцией -tt, он сгенерирует XML, содержащий все символыи их точная информация о местоположении.Оттуда вы сможете найти то, что вам нужно.

0 голосов
/ 16 января 2018

Если вы не возражаете против использования привязки Python для MuPDF, вот решение Python, использующее PyMuPDF (я один из его разработчиков):

import fitz                     # the PyMuPDF module
doc = fitz.open("input.pdf")    # PDF input file
page = doc[n]                   # page number n (0-based)
wordlist = page.getTextWords()  # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)

# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()

# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))

Мы находимся на GitHub, если вы заинтересованы.

...