как игнорировать текст / таблицы при разборе документа - PullRequest
0 голосов
/ 13 мая 2019

Я просто пытаюсь разобрать какой-то документ, а затем создаю новый файл PDF после его перевода.Я не очень хорошо разбираюсь в этих модулях, поэтому мне нужна помощь, пожалуйста.Я просто случайно выбрал один файл PDF.

Ниже приведен код, который я запускаю.

from tika import parser
import tika
from googletrans import Translator

from reportlab.platypus import SimpleDocTemplate, Paragraph
from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
from reportlab.lib.enums import TA_JUSTIFY

# To get the number of lines in a file
def number_of_lines(filename,num=0):
    with open(filename,encoding="utf-8") as file:
        user_resp=file.read()
        for x in user_resp:
            if x=='\n': 
                num+=1
    return num+1


# To intiate Translator
translator=Translator()

# to use clint only
tika.tika.TikaClientOnly=True
data=parser.from_file('[http://www.comagrav.com/files/PDF/COMAGRAV%20MT%20PROFI%20DE.pdf][1]')['content']

# Created a parsed file
parse_file='german_parse.txt'
with open(parse_file,'w',encoding="utf-8") as file:
    file.write(data)
    print()
    print("Parsed file Created!")
    print()

# Create a translated file
translated_fle='german_trans.txt'
with open(parse_file,encoding="utf-8") as file:
    with open(translated_fle,'w',encoding="utf-8") as file_d:
        data_to_trans=file.read()
        translatteedd=translator.translate(data_to_trans,dest='en').text
        file_d.write(translatteedd)
        print("Translated file Created!")
        print()


styles=getSampleStyleSheet()
styles.add(ParagraphStyle(name='Justify', alignment=TA_JUSTIFY))

story=[]

with open(translated_fle,encoding="utf-8") as file:
    for n in range(number_of_lines(translated_fle)):
        data_to_trans=file.readline()
        story.append(Paragraph(data_to_trans, styles["Normal"]))


doc = SimpleDocTemplate("first.pdf")
doc.build(story)
print("New PDF created")

Он работает нормально, но я хочу, наконец, игнорировать таблицу в этом документе,Есть ли способ сделать это?Я только что открыл эту библиотеку сегодня и буду больше практиковаться, чтобы добавить изображение, изменить текст и все прочее.Но я не могу понять, как что-то игнорировать при разборе pdf.

...