Мне нужно извлечь текст из PDF-файлов и сопоставить его с данными на листе Excel в файле json. Большинство вещей, которые я видел, предназначены для извлечения таблиц из PDF-файлов, но это расшифровки стенограмм с пунктуацией и специальными символами. Пример расшифровки . Я работаю со сценарием json, созданным другим пользователем, поэтому он мне нужен в качестве окончательного формата вывода.
образец json для элемента:
{"dmrecord": "2886","title": "Title of Item","transc":"Jan 18 ‘43 Dear M & F, I started this letter in the office in the farm house - or rather started to start - but the room our section is in is small & full of people & once again I am in the pup tent by candle light - this time I have solved the problem by leaning against the foot locker - feet extending from under the tent edge - candle on helmet - and sitting on bed roll. [A sketch of himself in the tent] [An arrow pointing at the moon: halfmoon] [An arrow pointing at the tree: bark] [An arrow pointing at the trees: cork trees with bark removed.] Yesterday as I returned to this area after a short walk"},
dmrecord и title взяты из таблицы Excel. Транскрипция c взята из расшифровки текста PDF. Их связывает уникальный идентификатор на листе Excel, соответствующий имени файла PDF. До сих пор я делал это вручную, но должен быть способ автоматизировать это.
Вот фрагменты данных, которые мне нужны для этого вывода:
- dmrecord: excel
- title: excel
- trans c: PDF
- ID: поле в Excel, имя файла PDF
Я запускал pdf2txt и pdfminer (около 3-х итераций этого), но не получили распечатку для работы с файловой частью. Они также не извлекаются из файлов Excel. Я не уверен, где искать другие подобные сценарии или с чего начать, если мне нужно написать свой собственный сценарий python. Я немного новичок в этом, но хочу попробовать.