Есть ли способ различать PDF-файлы с текстом OCR и без него? - PullRequest
0 голосов
/ 02 ноября 2019

У меня есть коллекция около 6000 pdf копий научных работ по радиолярии. Это потрясающая коллекция, и я использую ее для создания сайта, посвященного таксономии. В любом случае, PDF-файлы - это очень смешанный пакет, некоторые из которых представляют собой современные PDF-файлы, выпущенные издателями, а другие сканируют старые книги. Было бы очень полезно иметь какой-либо способ автоматически пометить их в соответствии с вероятным качеством?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...