Question

Я хочу извлечь указанный текст в pdf-файлах и положение текста.

Я знаю, что xpdf и mupdf могут анализировать pdf-файлы, поэтому я думаю, что они могут помочь мне выполнить эту задачу.

Но как использовать эти две библиотеки для получения позиции текста?

Robert · Answer 1 · 02 декабря 2011

Mupdf поставляется с несколькими инструментами, один из которых pdfdraw.

Если вы используете pdfdraw с опцией -tt, он сгенерирует XML, содержащий все символыи их точная информация о местоположении.Оттуда вы сможете найти то, что вам нужно.

Jorj McKie · Answer 2 · 16 января 2018

Если вы не возражаете против использования привязки Python для MuPDF, вот решение Python, использующее PyMuPDF (я один из его разработчиков):

import fitz                     # the PyMuPDF module
doc = fitz.open("input.pdf")    # PDF input file
page = doc[n]                   # page number n (0-based)
wordlist = page.getTextWords()  # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)

# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()

# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))

Мы находимся на GitHub, если вы заинтересованы.

как получить указанный текст pos через xpdf или mupdf?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как получить указанный текст pos через xpdf или mupdf?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы