У меня есть PDF-форма с несколькими полями. Я хочу очистить значения (только цифры) от этих полей.
Я читаю файл, используя следующий код, и я могу сделать 2 вещи:
1. распечатать весь файл
2. Печатайте только цифры
Есть ли способ, которым я мог бы напечатать эти числа с их страницей no или что-то в этой строке, чтобы я мог легко отделить числа, которые я хочу?
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
def extract_text_from_pdf(pdf_path):
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle)
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh,
caching=True,
check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
converter.close()
fake_file_handle.close()
if text:
return text
import re
if __name__ == '__main__':
string = extract_text_from_pdf('PDF.pdf')
string = re.sub('[^0-9]', '', string)
print (string)