Цель: Я хочу разработать инструмент автоматизации веб-приложений с Django каркасом для извлечения данных в формате PDF. Это не то же самое, что преобразование данных PDF-файла, это как указанное поле в PDF. Указанное поле можно указать щелчком мыши. Скрипт автоматизации должен постоянно открывать PDF-файлы в папке и извлекать указанное поле.
Выполненные действия Я выполнил сценарий python, чтобы открыть файл PDF и извлечь конкретное поле с помощью действия слушателя мыши и преобразовать его в изображение и преобразовать в текст.
Вопрос Может ли кто-нибудь подтвердить, могу ли я также использовать выше python скрипт в django. Я имею в виду, будут ли библиотеки слушателя мыши работать в django. Это своего рода автоматизация рабочего стола, вызываемая веб-приложением. пожалуйста, подтвердите, возможно ли это.
#opening pdf file. can be changed to open list of PDF files in folder
def openFile ():
os.system("start " + 'AF0002345_Copy.pdf')
# i have extracted image from pdf with help of mouse listener activity
# below function to convert image to text
def ocr_core(filename):
pytesseract.pytesseract.tesseract_cmd = r'C:\Users\150629\AppData\Local\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(Image.open(filename))
return text