PDF-файл, из которого я извлекаю данные, содержит как текстовые, так и табличные данные на каждой странице.
tabula-py отлично работает, поскольку ему удается идентифицировать соответствующие данные.
Проблема в том, что PDF Я работаю с использованием запятых (',') вместо десятичных точек ('.') При работе с числами с плавающей запятой ...
Значение PDF (пример): 1,3000 Выходные данные, которые я получаю: 1,3
Как я могу получить свой результат как 1300? Другими словами, как tabula-py может получать все свои данные строго в виде строк. Позже я смогу создать формулу для преобразования запятых в точки и наоборот.
Вот мой текущий код:
df_pdf = tabula.read_pdf(file_path, pages = "all" , multiple_tables = True, encoding = 'utf-8')
Функция, которую я использую для преобразования запятых в точки:
def Replace(str1):
maketrans = str1.maketrans
final = str1.translate(maketrans(', .', '., '))
return final
Заранее спасибо! :]