Я использую библиотеку python PyPDF2
, чтобы обрезать многие PDF-файлы, чтобы вырезать ненужную информацию сверху и снизу академических работ (т.е. номера страниц и журнальную информацию внизу).Затем я использовал библиотеку textract
для извлечения текстов из обрезанных файлов PDF в текстовые файлы.Однако выходные текстовые файлы по-прежнему содержат обрезанную информацию, несмотря на обрезку.Это также относится к pdfminer
, другой библиотеке извлечения текста (не OCR).Кажется, что для извлечения текста, в отличие от OCR, текст не может быть удален просто обрезкой.Кто-нибудь может объяснить, почему это так?Любая идея о том, как еще устранить ненужную информацию в файлах PDF для извлечения текста?