Вы пытаетесь извлечь информацию из заданной c строки / столбца и т.д. c, и всегда ли формат PDF одинаково форматируется, по крайней мере, для большинства строк / столбцов? Если это так, вам может не понадобиться модель ML, и вы можете просто использовать awk или sed.
ОБНОВЛЕНИЕ с ответом:
Сначала используйте pdftotext или что-то подобное, чтобы разобрать pdf в текст файл. Как только вы получите его в таком формате (новые строки необязательны) в файл с именем "yourfile.txt":
Note Currency EUR
Trade Date 16 January 2009
Initial Issue Date 29 January 2009
Note Currency EUR
Trade Date 16 January 2009
Initial Issue Date 29 January 2009
Note Currency EUR
Trade Date 16 January 2009
Initial Issue Date 29 January 2009
вы можете использовать
awk '$1 == "Note"{print "\(" $3}' yourfile.txt > out1
awk '$2 == "Issue" {print ", "$4" " $5" " $6"\)"}' yourfile.txt > out2
paste -d" " out1 out2 > formatted.txt
Ваши отформатированные результаты теперь будут находиться в файле с именем formatted.txt.