Извлечение табличных данных из PDF и сортировка их - PullRequest
1 голос
/ 10 мая 2010

У меня есть файл PDF, в котором есть список заданий определенного экзамена.

Меня особенно интересует первый список, но, к сожалению, в нем 2112 записей. И они не отформатированы должным образом. Мне нужно отсортировать все эти записи (на основе оценок в последних 2 столбцах - сумма оценок в Aptitude и Computer), чтобы узнать, каков мой ранг.

Я пытался скопировать в MS Word и Excel, но если вы попробуете это, вы увидите, что это не поможет. Вставив его в простой текстовый файл, я попытался отформатировать его с помощью регулярных выражений (в Notepad ++), написал код на C, чтобы правильно разделить каждое поле на «\ t» (чтобы позже я мог правильно скопировать их в лист Excel ), но из-за несогласованности я потерпел неудачу (некоторые записи порождаются несколькими строками, у «имен» нет фиксированных номеров полей).

Может кто-нибудь придумать идею, которая позволит скопировать первый список в PDF в электронную таблицу в виде таблицы точно так же, как исходный файл?

Ответы [ 3 ]

1 голос
/ 30 сентября 2014
  1. Информацию о том, почему формат файла PDF никогда и никогда не следует рассматривать как подходящий для размещения извлекаемых структурированных данных , см. В этой статье:

  2. Для удивительного семейства инструментов с открытым исходным кодом, которое становится все лучше и лучше с неделей в неделю для извлечения табличных данных из PDF-файлов (если они не являются отсканированными страницами) - противоречащий пункт '1' выше ! - см. эти ссылки:

0 голосов
/ 10 мая 2010

Ну, я вроде как справился. Сначала я скопировал его в текстовый файл, удалил из него все буквы, оставив только серийный номер и соответствующие метки, разделенные пробелами или табуляцией. Затем, используя «импорт» в электронной таблице OpenOffice, сказал, что разделителями являются пробелы и табуляции (объедините их при необходимости) и бинго! Я получил свое звание.

Но я все же хотел бы знать, можно ли скопировать всю таблицу как есть. Так что держите этот вопрос открытым.

0 голосов
/ 10 мая 2010

Однажды мне было поручено создать синтаксический анализатор, который извлекал бы данные из PDF-файла с табличными и не табличными данными в нескольких различных кодировках и со смешанным текстом RTL и LTR. Этот проект потребовал немало усилий, но с простой таблицей English вы сможете быстро проанализировать pdf. Ищите спецификации PDF на adobe.com и, если это отчаянно, начните копаться.

Также сначала вам нужно будет использовать pdftk.exe, чтобы распаковать файл.

ярлык, который мне поможет: http://www.adobe.com/devnet/pdf/pdf_reference.html

Это ярлык, который я имел в виду: http://www.codeproject.com/KB/cs/PDFToText.aspx

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...