Я использую tabula.py
, но он работает слишком медленно для нескольких страниц (например, 1000) в формате PDF. Есть ли способ улучшить время выполнения, например, с помощью pyspark для запуска в кластере, или в pyspark есть tabula.py? Какие-нибудь распределенные вычисления для tabula?
@ExtractTable.com
count= 1000
for i in range(count):
i = i + 1
output_file = "test_" + str(i)+ ".csv"
if path.exists(output_file):
print("%s file exist" %(output_file))
else:
df = tabula.convert_into(pdf_path,output_file, output_format='csv', pages=str(i))