Tabula.py: медленное время выполнения для нескольких страниц PDF - PullRequest
0 голосов
/ 04 ноября 2019

Я использую tabula.py, но он работает слишком медленно для нескольких страниц (например, 1000) в формате PDF. Есть ли способ улучшить время выполнения, например, с помощью pyspark для запуска в кластере, или в pyspark есть tabula.py? Какие-нибудь распределенные вычисления для tabula?

@ExtractTable.com

count= 1000

for i in range(count):
  i = i + 1 
  output_file = "test_" + str(i)+ ".csv"
  if path.exists(output_file):
     print("%s file exist" %(output_file))
  else:
     df = tabula.convert_into(pdf_path,output_file, output_format='csv', pages=str(i))
...