Я просто пытаюсь разобрать какой-то документ, а затем создаю новый файл PDF после его перевода.Я не очень хорошо разбираюсь в этих модулях, поэтому мне нужна помощь, пожалуйста.Я просто случайно выбрал один файл PDF.
Ниже приведен код, который я запускаю.
from tika import parser
import tika
from googletrans import Translator
from reportlab.platypus import SimpleDocTemplate, Paragraph
from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
from reportlab.lib.enums import TA_JUSTIFY
# To get the number of lines in a file
def number_of_lines(filename,num=0):
with open(filename,encoding="utf-8") as file:
user_resp=file.read()
for x in user_resp:
if x=='\n':
num+=1
return num+1
# To intiate Translator
translator=Translator()
# to use clint only
tika.tika.TikaClientOnly=True
data=parser.from_file('[http://www.comagrav.com/files/PDF/COMAGRAV%20MT%20PROFI%20DE.pdf][1]')['content']
# Created a parsed file
parse_file='german_parse.txt'
with open(parse_file,'w',encoding="utf-8") as file:
file.write(data)
print()
print("Parsed file Created!")
print()
# Create a translated file
translated_fle='german_trans.txt'
with open(parse_file,encoding="utf-8") as file:
with open(translated_fle,'w',encoding="utf-8") as file_d:
data_to_trans=file.read()
translatteedd=translator.translate(data_to_trans,dest='en').text
file_d.write(translatteedd)
print("Translated file Created!")
print()
styles=getSampleStyleSheet()
styles.add(ParagraphStyle(name='Justify', alignment=TA_JUSTIFY))
story=[]
with open(translated_fle,encoding="utf-8") as file:
for n in range(number_of_lines(translated_fle)):
data_to_trans=file.readline()
story.append(Paragraph(data_to_trans, styles["Normal"]))
doc = SimpleDocTemplate("first.pdf")
doc.build(story)
print("New PDF created")
Он работает нормально, но я хочу, наконец, игнорировать таблицу в этом документе,Есть ли способ сделать это?Я только что открыл эту библиотеку сегодня и буду больше практиковаться, чтобы добавить изображение, изменить текст и все прочее.Но я не могу понять, как что-то игнорировать при разборе pdf.