Возможна ли такая вещь? Да, хотя это не рекомендуется. На мой взгляд, вам лучше всего открыть и прочитать существующий файл, переместить его в редактируемый формат, удалить любой текст, который вы не хотите представлять, а затем преобразовать его обратно.
Однако вы можете извлечь данные и удалить их из памяти, используя:
import PyPDF2
# creating a pdf file object
pdfFileObj = open('example.pdf', 'rb')
# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# printing number of pages in pdf file
print(pdfReader.numPages)
# creating a page object
pageObj = pdfReader.getPage(0)
# extracting text from page
print(pageObj.extractText())
# closing the pdf file object
pdfFileObj.close()
Строка за строкой, эта программа будет:
pdfFileObj = open('example.pdf', 'rb')
Откройте example.pdf
и сохраните объект файла как pdfFileObj
.
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
Создайте объект PdfFileReader
и передайте объект PDF-файла целиком, получив объект для чтения PDF.
print(pdfReader.numPages)
Дайте количество страниц.
pageObj = pdfReader.getPage(0)
Создайте объект класса PageObject
. Объект чтения PDF имеет функцию getPage()
, которая принимает номер страницы (начальный индекс формы 0) в качестве аргумента и возвращает объект страницы.
print(pageObj.extractText())
Извлечь текст со страницы PDF.
pdfFileObj.close()
Закройте объект файла PDF.
Текст замены будет просто "", так как вы хотите удалить все экземпляры / случаи определенного фрагмента текста.