Преобразовать полный текст из RTF или PDF-файла в CSV - PullRequest
0 голосов
/ 10 октября 2019

мы переходим от старого программного обеспечения для учета персонала к новому, и единственный способ экспортировать существующих сотрудников - через RTF или PDF. Их нет в списках, но они отформатированы следующим образом (пример RTF открыт в Notepad ++):

Employee No.    :       1                                       Date of Birth            :  28.05.1943\line
                                                                Gender                   :           1\line
Family Name     :  Korsig                                       Family status            :           1\line
First Name      :  Julia                                        Retired                  :           9\line
...
...

Такой же макет, как и у файла PDF.
На одного сотрудника приходится около 3-4 страницв общей сложности более 120 сотрудников (файл PDF с 463 страницами).

Говоря с поставщиком более старого программного обеспечения для учета персонала, они утверждают, что миграции обычно выполняются вручную и что нет инструментов экспорта.

Новый поставщик программного обеспечения для учета персонала ожидает, что мы предоставим данные в электронной таблице XLS, то есть было бы здорово, если бы нам удалось преобразовать данные RTF или PDF в CSV.

Итак, мы в основноместь три варианта:
1. Скопировать все вручную
2. Преобразование из RTF: Здесь я осмотрелся и Python, кажется, хороший выбор
3. Преобразование из PDF: Здесь я подумал о том, чтобы попробовать iTextв Java

Что бы вы посоветовали, как лучше всего решить эту проблему?
Время также ограничено, поскольку мы должны подготовить его в ближайшие 4 дня.

...