мы переходим от старого программного обеспечения для учета персонала к новому, и единственный способ экспортировать существующих сотрудников - через RTF или PDF. Их нет в списках, но они отформатированы следующим образом (пример RTF открыт в Notepad ++):
Employee No. : 1 Date of Birth : 28.05.1943\line
Gender : 1\line
Family Name : Korsig Family status : 1\line
First Name : Julia Retired : 9\line
...
...
Такой же макет, как и у файла PDF.
На одного сотрудника приходится около 3-4 страницв общей сложности более 120 сотрудников (файл PDF с 463 страницами).
Говоря с поставщиком более старого программного обеспечения для учета персонала, они утверждают, что миграции обычно выполняются вручную и что нет инструментов экспорта.
Новый поставщик программного обеспечения для учета персонала ожидает, что мы предоставим данные в электронной таблице XLS, то есть было бы здорово, если бы нам удалось преобразовать данные RTF или PDF в CSV.
Итак, мы в основноместь три варианта:
1. Скопировать все вручную
2. Преобразование из RTF: Здесь я осмотрелся и Python, кажется, хороший выбор
3. Преобразование из PDF: Здесь я подумал о том, чтобы попробовать iTextв Java
Что бы вы посоветовали, как лучше всего решить эту проблему?
Время также ограничено, поскольку мы должны подготовить его в ближайшие 4 дня.