Python tabula .convert_into пропускает несколько пробелов (слова с несколькими пробелами в pdf вместе без пробела) - PullRequest
0 голосов
/ 10 апреля 2019

Я использую tabula.convert_into csv, который все прекрасно захватывает, но текст вроде:

"DEV__HH WorldSummit Re Escentes"

в PDF становятся (Есть 2 пробела между DEV и HH)

"DEVHH WorldSummit Re Estimates" в csv

Я пробовал encoding = 'utf-8' и другие библиотеки, такие как pypdf2, но tabula пока дает мне лучшие результаты.Это одна странная вещь, которую мне нужно решить.

import tabula

file = 'input.pdf'

tabula.convert_into(file,"output.csv",pages = 'all', output_format="csv", encoding='utf-8')
...