Есть ли способ суммировать текстовые данные с номерами и таблицами в python, извлекающим или абстрактным способом? - PullRequest
0 голосов
/ 03 марта 2020

Я имею дело с тоннами документов PDF (данные петеций), заполненными текстовыми данными, имеющими номера, табличные данные и т. Д. c. Задача клиента - обобщить любой данный документ, чтобы уменьшить трудозатраты при чтении всего документа. Я пробовал обычные методы, такие как lSA, Gensim-sumrizer, BERT, Pryummarizer.

Результаты не совсем хорошие. Пожалуйста, предложите мне какой-нибудь способ, где я смогу найти обобщитель отраслевого уровня (обобщающий / обобщающий), который дал бы мне хорошее начало для решения этой проблемы.

1 Ответ

2 голосов
/ 03 марта 2020

Во-первых, вам нужно будет точно знать, какие данные компания хочет извлечь из документов. После этого вы сможете преобразовать документы в необработанный текст с помощью OCR или другого приложения PDF, а затем извлечь необходимые данные. Если компании неясно, как они хотят, чтобы вы суммировали данные, им было бы о чем поговорить с ними. Это может быть так же просто, как установить заголовок документа или классифицировать его. Если это классификация документов, я могу вам в этом помочь, я сделал репо для этой цели некоторое время go.

...