Разобрать файл pdf - PullRequest
       4

Разобрать файл pdf

0 голосов
/ 14 октября 2010

У меня есть такой PDF-файл:

81 11005589 THING MAXIME 4 PC2I TR1 - MERCREDI DE 07H45 A 09H45 4A7
71 11007079 STUFF QUENTIN 1 PC2I TR1 - LUNDI DE 10H00 A 12H00 1B4
74 10506940 HAHA YEZHOU 2 PC2I TR1 - LUNDI DE 13H30 A 15H30 2D5

http://i.stack.imgur.com/hbXg2.png

И мне нужно его проанализировать.Под этим я подразумеваю взять 4-й столбец, добавить 3-й столбец и сделать из него адрес электронной почты.Например, в первой строке: maxime.thing@something.com

Я пытался перевести его в Google Документы, но он просто переместил его в одну ячейку вместо нескольких.* Я действительно не знаю, что здесь делать.Я думаю, регулярное выражение поможет мне, но с чем?

Ответы [ 5 ]

1 голос
/ 14 октября 2010

Если это Java iText , если это C # iTextSharp , оба бесплатны для некоммерческого использования.

0 голосов
/ 15 октября 2010

Вы не можете быть уверены, что в PDF есть какая-то структура, из-за которой текст виден.Вам действительно нужно использовать инструмент для извлечения.Я написал статью, объясняющую, что на самом деле форматирование в PDF-файле на http://www.jpedal.org/PDFblog/?p=228

0 голосов
/ 14 октября 2010

Вы не можете просто использовать регулярное выражение для разбора PDF.Вам нужно извлечь текст.Есть много библиотек, которые могут сделать это для разных языков.

Моя компания, Atalasoft, имеет надстройку для извлечения текста для .NET - http://www.atalasoft.com/products/dotimage/pdf-reader

.на PDFTextStream от Snowtide.http://www.snowtide.com.

0 голосов
/ 14 октября 2010

Если в PHP вы можете использовать

exec('pdftotext '.$filepath, $outputAsArray); //execute the command pdftotext. Proabably installed if you're on linux, if not you can install it /// to transform the pdf to text,

тогда

$text = implode($outputAsArray,"\n"); //to have the output as text

тогда preg_replace ваш друг.

0 голосов
/ 14 октября 2010

Ранее я использовал Aspose для парсинга PDF / Word документов / Excel документов / и некоторых других документов ранее.Я не уверен, каковы их возможности, когда дело доходит до разбора таблиц в PDF, но я не удивлюсь, если у них что-то будет.* у них есть непростительно плохой метод обновления своих библиотек.Мне пришлось переписать код, потому что они выпускают функциональность DROP при выпуске новых версий.Не осуждается, просто GONE. Тем не менее, их поддержка в порядке, а набор инструментов довольно мощный.

Я знаю, что у них есть библиотеки для .NET и Java.Помимо этого я не могу сказать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...