Извлечь таблицу в PDF-счет с ячейками слияния - PullRequest
0 голосов
/ 05 января 2019

Я пытаюсь извлечь информацию из PDF-счетов. Однако в моих счетах много ячеек слияния. Я пробовал tabula, но он не смог восстановить эти клетки. Есть ли лучшее решение.

Вот образец счета :

enter image description here

Что мне нужно, так это получить экстракт для повторного преобразования столбца описания в одну длинную строку, подобную этой:

              Description                         Quantity  
0            Mechanical seal Type....                  1.00  
1            Pick up                                   NAN

и не разбивать их на несколько строк следующим образом:

                 Description                  Quantity  
0            Random Sample                        NaN   
1            Type: etc                           1.00   
2            Material:etc                         NaN   
3            Picked up                            NaN 
...