Я попытался использовать пакет Python, tabula-py, чтобы прочитать table в pdf. Кажется, что разрывы строк в ячейках таблицы pdf разделяют содержимое в исходной ячейке на несколько ячеек.
Я пытался найти все виды пакетов Python, чтобы решить эту проблему. Похоже, что tabula-py - самый устойчивый пакет для преобразования pdf таблицы в данные pandas. Однако, если эта проблема не может быть решена, я должен обратиться к онлайн-сервису , который даст мне идеальный вывод Excel.
from tabula import read_pdf
df=read_pdf("C:/Users/Desktop/test.pdf", pages='all')
Я ожидал, что pdf-таблицу можно будет правильно преобразовать с помощью this .