Извлечение координат текста с использованием tesseract python без использования pytesseract - PullRequest
0 голосов
/ 04 ноября 2019

я не нашел никакой альтернативной оболочки pytesseract не для системы windows. Я хочу извлечь текст с его координатами, не используя pytesseract в панде dataframe.

1 Ответ

0 голосов
/ 04 ноября 2019

tesseract_path - это путь, по которому ваш tesseract установлен в системе Windows.

img_path - это путь к изображению, из которого мы хотим извлечь текст.

tsv_path - выходной путь к файлу. в котором хранится извлеченная информация, например ../path/sample_output

import os

tesseract_cmd = '"%s" %s %s -l eng --psm 6 tsv'%(tesseract_path, img_path, tsv_path)

os.system('cmd /c %s'%(tesseract_cmd))
import pandas as pd

df = pd.read_csv('%s.tsv'%(tsv_path), sep='\t', header=0)

ссылки: https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage

...