У меня есть PDF, который содержит некоторые данные мусора.Мне нужно найти способ удалить его, поскольку он также извлекается через pdfminer.
Я пытался использовать pdfminer для извлечения текста из pdf
home:~$ pdf2txt.py -o result.txt result.pdf
Мне нужно удалить отображаемый текст мусорапри выборе
Это фактический текст, когда он не выбран
Дополнительная информация оpdf
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdfinfo /home/user/result.pdf
Tagged: no
UserProperties: no
Suspects: no
Form: none
JavaScript: no
Pages: 1
Encrypted: no
Page size: 595 x 842 pts (A4)
Page rot: 0
File size: 28651 bytes
Optimized: no
PDF version: 1.3
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$ pdffonts /home/user/result.pdf
name type encoding emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Arial,Bold TrueType WinAnsi no no no 11 0
Arial TrueType WinAnsi no no no 12 0
(pdfparse) home:~/Documents/pdfparse/pdfminer/tools$