Мне нужна отправная точка для кодирования приложения для извлечения текста из PDF, чтобы преуспеть - PullRequest
0 голосов
/ 21 марта 2019

Для начала я просто хочу сказать, что я инженер-электрик с базовыми знаниями в области программирования.

Мое требование следующее:

  • Я хочу создать приложение, в котором я могу загружать и просматривать файлы PDF, которые содержать таблицы.
  • Эти таблицы PDF-файлов имеют неправильную форму и имеют разные положение на каждой странице. (вот почему такие инструменты, как табличные я)
  • Каждая запись таблицы многострочная и имеет нестандартные размеры (я не могу выберите целую строку за раз, это должен быть каждый элемент в отдельности. просто Копирование строк в Excel тоже не сработает, потому что потребуется много форматирования)
  • Так что я хочу иметь возможность выбрать каждую запись таблицы отдельно от таблица (например, поле выделения или обрезки над требуемым текстом), удалить новую строку, если в тексте есть новая строка, и просто оставить пробелы.
  • Сгенерированный Excel (или доступ к базе данных, я не против) должен быть рецензируемым и сохраняемым (если это даже слова XD).

У меня хорошие знания Python и очень элементарные знания Django, и я ищу эксперта, который может сказать мне, что мне действительно нужно изучить (и, если возможно, где это узнать), чтобы выполнить мой проект.

Это очень много для меня, чтобы выполнить, и если я могу посвятить 10 часов в неделю, сколько бы мне понадобилось, чтобы выполнить такой проект.

Заранее всем спасибо за помощь.

Ответы [ 2 ]

2 голосов
/ 21 марта 2019

Не используйте Python, используйте Word. Откройте PDF-файл, затем просмотрите коллекцию таблиц, чтобы собрать данные и превратить их в Excel. См. для примера

0 голосов
/ 21 марта 2019

Вот советы, которые я могу вам предоставить: Прежде всего, задайте вопросы в Интернете:
https://lmddgtfy.net/?q=python%20library%20tabular%20pdf
-> Камелот, о котором упоминается несколько раз, представляется уместным

Для использования листа excel , я представляю вам одну из самых известных библиотек для манипулирования DataFrame: Pandas Вы можете использовать небольшие курсы в Интернете, которые позволят вам быстрее управлять вашим проектом.

для приложения вы можете легко найти на курсах YouTube в библиотеке, составленной кем-то, кто объяснит вам, как сделать простое приложение. Он может предложить вам точку входа, о которой вы говорите. Тогда вы можете просто задаться вопросом, что еще вам нужно или просто хотите сделать это лучше.

в течение необходимого времени, это зависит от того, сколько времени вам нужно, чтобы понять основы, сколько времени вы тратите на более глубокое понимание. Я думаю, что через неделю, работая в свободное время с реальным интересом, он может работать (не идеально, но работает, что является хорошим началом)

PS: Я не уверен, что ваш вопрос имеет отношение к целям stackoverflow. Я предлагаю вам прочитать этот файл. (https://stackoverflow.com/help/how-to-ask)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...