Извлечение встроенных изображений из PDF с использованием apache-tika и python - PullRequest
0 голосов
/ 08 мая 2019

Мне нужно преобразовать документы PDF в формат XML или JSON, включая встроенные изображения.

Пока что я могу создавать XML, используя библиотеку python-tika. Для воспроизведения используйте тестовый PDF-документ со встроенным изображением и извлеките его с помощью модуля python-tika:

from tika import parser
xml_data = parser.from_file('test.pdf', xmlContent=True)
print(xml_data)

Вывод XML содержит ссылки на «встроенные» изображения, например:

<img src="embedded:image0.png" alt="image0.png" />

Однако я не понимаю, как внедряется изображение в соответствующий раздел, поскольку XML выглядит следующим образом:

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="Compression Lossless" content="true" />
<meta name="Dimension PixelAspectRatio" content="1.0" />
<meta name="tiff:ImageLength" content="833" />
<meta name="height" content="833" />
<meta name="pHYs" content="pixelsPerUnitXAxis=2835, pixelsPerUnitYAxis=2835, unitSpecifier=meter" />
<meta name="tiff:ImageWidth" content="1177" />
<meta name="Chroma BlackIsZero" content="true" />
<meta name="resourceName" content="image0.png" />
<meta name="Dimension VerticalPixelSize" content="0.35273367" />
<meta name="Data BitsPerSample" content="8 8 8" />
<meta name="tiff:BitsPerSample" content="8 8 8" />
<meta name="width" content="1177" />
<meta name="PLTE PLTEEntry" content="index=0, red=255, green=255, blue=255" />
<meta name="PLTE PLTEEntry" content="index=1, red=254, green=254, blue=254" />
<meta name="PLTE PLTEEntry" content="index=2, red=253, green=253, blue=253" />
<meta name="PLTE PLTEEntry" content="index=3, red=251, green=251, blue=251" />
...

У кого-нибудь есть идея, как превратить этот встроенный код в реальное изображение? Я хотел бы сохранить изображения в файловой системе как "image0.png", "image1.tiff" и так далее ...

...