Я пытаюсь извлечь информацию из PDF-счетов. Однако в моих счетах много ячеек слияния. Я пробовал tabula, но он не смог восстановить эти клетки. Есть ли лучшее решение.
Вот образец счета :
Что мне нужно, так это получить экстракт для повторного преобразования столбца описания в одну длинную строку, подобную этой:
Description Quantity
0 Mechanical seal Type.... 1.00
1 Pick up NAN
и не разбивать их на несколько строк следующим образом:
Description Quantity
0 Random Sample NaN
1 Type: etc 1.00
2 Material:etc NaN
3 Picked up NaN