У меня есть PDF, в котором некоторые строки таблицы содержат специальные символы и шрифты , например, .Есть ли способ прочитать их правильно.
from tabula import read_pdf
df = read_pdf("Tables PDF.pdf", pages = '5', lattice = True, multiple_tables = True, encoding = 'utf-8-sig')
Я пробовал несколько типов кодировок utf-8
, ascii
, utf-8-sig
, ISO-8859-1
.Дайте мне знать, если есть какой-либо другой выход.
Также попытался прочитать одно из значений отдельно и внести изменения, используя:
df1.iloc[3, 6] = df1.iloc[3, 6].encode("utf-8", "replace")
Не сработало.Любая помощь будет оценена.