Удалить неверные данные в формате PDF при извлечении текста из него - PullRequest
0 голосов
/ 06 июня 2019

У меня есть PDF, который содержит некоторые данные мусора.Мне нужно найти способ удалить его, поскольку он также извлекается через pdfminer.

Я пытался использовать pdfminer для извлечения текста из pdf

home:~$ pdf2txt.py -o result.txt result.pdf

Мне нужно удалить отображаемый текст мусорапри выборе selected

Это фактический текст, когда он не выбран

not selected

Дополнительная информация оpdf

(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdfinfo /home/user/result.pdf
Tagged:         no
UserProperties: no
Suspects:       no
Form:           none
JavaScript:     no
Pages:          1
Encrypted:      no
Page size:      595 x 842 pts (A4)
Page rot:       0
File size:      28651 bytes
Optimized:      no
PDF version:    1.3
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdffonts /home/user/result.pdf
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Arial,Bold                           TrueType          WinAnsi          no  no  no      11  0
Arial                                TrueType          WinAnsi          no  no  no      12  0
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ 
...