Использование Apache Tika PDF Parser вытесняет текст - PullRequest
0 голосов
/ 04 мая 2019

Я недавно попробовал различные парсеры PDF (tika, PDFminer.six и т. Д.), Чтобы извлечь весь контент в текстовый файл.При использовании PDFminer.six у меня не было проблем, и текст был извлечен без проблем.Однако, используя тику, я сталкиваюсь с некоторыми проблемами.Другими словами, используя следующий код:

import tika
from tika import parser
tika.initVM()
parsed = parser.from_file(PDF_File.pdf)
#print(parsed["metadata"])
print(parsed["content"])
text_file = open("Output.txt", "w", encoding="utf-8")
text_file.write(parsed["content"])
text_file.close()

Я вижу, что в большинстве строк (но не во всех) отсутствует первый символ, который расположен выше в текстовом документе:

m

i

2

[....]

данные из более длинных открытых заявок1. Однако этоТренд может не обязательно помочь инвесторам, если

более затратно извлекать полезную информацию из больших и более сложных раскрытий.первый символ каждой строки смещается и вставляется над фактическим текстом.Однако это недопустимо для всего документа, для некоторых параграфов первая строка завершена, и начиная со второй строки первый символ смещается ...

Любой в сообществе, который сталкивался с подобными проблемами и нашелрешение этого?

Любая помощь приветствуется!

PS Я использую Python 3.6.7 и Pycharm Community Edition 2019.1.

...