Обрезка файлов PDF не может обрезать текст для извлечения текста (textract и pdfminer) - PullRequest
0 голосов
/ 30 сентября 2018

Я использую библиотеку python PyPDF2, чтобы обрезать многие PDF-файлы, чтобы вырезать ненужную информацию сверху и снизу академических работ (т.е. номера страниц и журнальную информацию внизу).Затем я использовал библиотеку textract для извлечения текстов из обрезанных файлов PDF в текстовые файлы.Однако выходные текстовые файлы по-прежнему содержат обрезанную информацию, несмотря на обрезку.Это также относится к pdfminer, другой библиотеке извлечения текста (не OCR).Кажется, что для извлечения текста, в отличие от OCR, текст не может быть удален просто обрезкой.Кто-нибудь может объяснить, почему это так?Любая идея о том, как еще устранить ненужную информацию в файлах PDF для извлечения текста?

...