PDF File Manipulation (откройте большой файл PDF, найдите ключевое слово, затем сохраните, в какой странице была найдена, а затем разбить эти страницы и объединить их в один PDF) - PullRequest
1 голос
/ 20 февраля 2020

Я работаю над проектом для моего друга. Я хочу найти одно конкретное ключевое слово c, которое находится на нескольких страницах, и оно имеет дубликаты в других местах большого файла PDF (40-60 страниц и выше), затем сохранить в памяти, на какой странице было найдено ключевое слово, а затем отделите эти страницы от исходного файла PDF и, наконец, объедините их вместе.

Я думаю об использовании PDFMiner или PyPDF2 (я открыт для других предложений а также)

Я уже пишу код для большей части этого, но я не могу найти хороший и эффективный способ поиска файла и найти это ключевое слово, потому что это ключевое слово находится в другие места в том же файле и убедитесь, что данные, которые я хочу извлечь из исходного файла, не являются дубликатами, а все данные были извлечены.

Заранее спасибо.

1 Ответ

0 голосов
/ 20 февраля 2020

Вы пытались разделить файл PDF на пару блоков и найти ключевое слово в каждом блоке с многопоточностью? Это должно быть быстрее.

...