Question

Я использую библиотеку python PyPDF2, чтобы обрезать многие PDF-файлы, чтобы вырезать ненужную информацию сверху и снизу академических работ (т.е. номера страниц и журнальную информацию внизу).Затем я использовал библиотеку textract для извлечения текстов из обрезанных файлов PDF в текстовые файлы.Однако выходные текстовые файлы по-прежнему содержат обрезанную информацию, несмотря на обрезку.Это также относится к pdfminer, другой библиотеке извлечения текста (не OCR).Кажется, что для извлечения текста, в отличие от OCR, текст не может быть удален просто обрезкой.Кто-нибудь может объяснить, почему это так?Любая идея о том, как еще устранить ненужную информацию в файлах PDF для извлечения текста?

Обрезка файлов PDF не может обрезать текст для извлечения текста (textract и pdfminer)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обрезка файлов PDF не может обрезать текст для извлечения текста (textract и pdfminer)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы