Как извлечь значения данных PDF только в виде строк, используя tabula-py? - PullRequest
0 голосов
/ 06 апреля 2020

PDF-файл, из которого я извлекаю данные, содержит как текстовые, так и табличные данные на каждой странице.

tabula-py отлично работает, поскольку ему удается идентифицировать соответствующие данные.

Проблема в том, что PDF Я работаю с использованием запятых (',') вместо десятичных точек ('.') При работе с числами с плавающей запятой ...

Значение PDF (пример): 1,3000 Выходные данные, которые я получаю: 1,3

Как я могу получить свой результат как 1300? Другими словами, как tabula-py может получать все свои данные строго в виде строк. Позже я смогу создать формулу для преобразования запятых в точки и наоборот.

Вот мой текущий код:

df_pdf = tabula.read_pdf(file_path, pages = "all" , multiple_tables = True, encoding = 'utf-8')

Функция, которую я использую для преобразования запятых в точки:

def Replace(str1): 
    maketrans = str1.maketrans 
    final = str1.translate(maketrans(', .', '., ')) 
    return final

Заранее спасибо! :]

...