PDF текст и данные Excel до одного json - PullRequest
0 голосов
/ 05 августа 2020

Мне нужно извлечь текст из PDF-файлов и сопоставить его с данными на листе Excel в файле json. Большинство вещей, которые я видел, предназначены для извлечения таблиц из PDF-файлов, но это расшифровки стенограмм с пунктуацией и специальными символами. Пример расшифровки . Я работаю со сценарием json, созданным другим пользователем, поэтому он мне нужен в качестве окончательного формата вывода.

образец json для элемента:

{"dmrecord": "2886","title": "Title of Item","transc":"Jan 18 ‘43 Dear M & F, I started this letter in the office in the farm house - or rather started to start - but the room our section is in is small & full of people & once again I am in the pup tent by candle light - this time I have solved the problem by leaning against the foot locker - feet extending from under the tent edge - candle on helmet - and sitting on bed roll. [A sketch of himself in the tent] [An arrow pointing at the moon: halfmoon] [An arrow pointing at the tree: bark] [An arrow pointing at the trees: cork trees with bark removed.] Yesterday as I returned to this area after a short walk"},

dmrecord и title взяты из таблицы Excel. Транскрипция c взята из расшифровки текста PDF. Их связывает уникальный идентификатор на листе Excel, соответствующий имени файла PDF. До сих пор я делал это вручную, но должен быть способ автоматизировать это.

Вот фрагменты данных, которые мне нужны для этого вывода:

  • dmrecord: excel
  • title: excel
  • trans c: PDF
  • ID: поле в Excel, имя файла PDF

Я запускал pdf2txt и pdfminer (около 3-х итераций этого), но не получили распечатку для работы с файловой частью. Они также не извлекаются из файлов Excel. Я не уверен, где искать другие подобные сценарии или с чего начать, если мне нужно написать свой собственный сценарий python. Я немного новичок в этом, но хочу попробовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...