У меня Ubuntu 18.04, и я использую GREP и pdftotext для извлечения информации из файлов pdf.Я могу приблизиться к тому, чтобы получить то, что я хочу, но как новичок в этом, я изо всех сил пытаюсь улучшить это.Конечная цель - экспортировать эту информацию в таблицу Excel или SQL, поэтому форматирование и компоновка имеют решающее значение.Я использовал awk и sed, чтобы попытаться перейти прямо к csv, НО я получаю вкладки и пробелы, которые не чистые - не говоря уже о нормализации в полезной манере.У меня более 3000 таких отчетов.
Отчеты состоят из нескольких страниц и содержат некоторую информацию, которую я хотел бы проанализировать и сохранить в CSV-файле.Я могу успешно преобразовать PDF в текст, сохранить макет и удалить разрывы страниц.Я также могу получить информацию.довольно хорошо, но у меня проблемы с двумя вещами: 1. Включение отдельной части информации в начале отчета: Имя и Дата с информацией, которую я извлекаю;2. Передача информации в полезном формате CSV.Вот что я имею после преобразования pdf в текст:
Blah blah blah…
Blah blah blah…,
Date: July 5/2009
Name: Jerry Lewis
Blah, blah bla blah…
Blah, blah bla blah…
… and so forth…
Blah, blah bla blah…
Program Signature Style
ID
3267-A0 DJFHJJHJHHL Compact Flash
SJF98SDAS7
Заголовки разделены пробелами / табуляциями.«ProgramID» разбит на две строки, как и значение подписи
Я хочу:
Date,Name,ProgramID,Signature,Style
July 5/2009,Jerry Lewis, 3267-A02, DJFHJJHJHHL SJF98SDAS7, Compact Flash
Конечная цель - экспортировать эту информацию в таблицу Excel или SQL, поэтому форматирование имакет имеет решающее значение.Я использовал awk и sed, чтобы попытаться перейти прямо к csv, НО я получаю вкладки и пробелы, которые не чистые - не говоря уже о нормализации в полезной манере.У меня более 3000 таких отчетов.То, что было бы супер-удивительным, - это сделать их все одновременно.Я вмешивался в рекурсивные операторы, чтобы преобразовать все PDF-файлы в папке в текст, и использовал команду linux, чтобы переместить PDF-файлы в целом в другой «обработанный» каталог, но это все.
Как я уже сказал,Я немного новичок, так что я даже не уверен, возможно ли это?- Спасибо