Я работаю над проектом для моего друга. Я хочу найти одно конкретное ключевое слово c, которое находится на нескольких страницах, и оно имеет дубликаты в других местах большого файла PDF (40-60 страниц и выше), затем сохранить в памяти, на какой странице было найдено ключевое слово, а затем отделите эти страницы от исходного файла PDF и, наконец, объедините их вместе.
Я думаю об использовании PDFMiner или PyPDF2 (я открыт для других предложений а также)
Я уже пишу код для большей части этого, но я не могу найти хороший и эффективный способ поиска файла и найти это ключевое слово, потому что это ключевое слово находится в другие места в том же файле и убедитесь, что данные, которые я хочу извлечь из исходного файла, не являются дубликатами, а все данные были извлечены.
Заранее спасибо.