Как передать шаблон RegEx в Pytesseract? - PullRequest
0 голосов
/ 18 февраля 2020

Кажется, есть два способа go об этом, ни один из них не работает.

Во-первых, вы можете передать tessedit_char_whitelist, но это работает только с символами, а не с шаблонами:

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Users\.../tesseract.exe'

pytesseract.image_to_string(img, config="-c tessedit_char_whitelist=.{5,15}\d{4,8}")

Это не сработает, хотя вы можете внести символы в белый список как 'abcdefgh'.

Второй путь - , . Я нашел файл eng.user-patterns и ввел свой шаблон RegEx, но я не знаю, как его настроить, чтобы он был активным. Я думаю, это будет что-то вроде:

pytesseract.image_to_string(img, configfile="eng.user-patterns")

Однако pytesseract не принимает такой аргумент.

1 Ответ

0 голосов
/ 19 февраля 2020

RegEx не поддерживаются tesseract, и pytesseract ничего не может с этим поделать. tessedit_char_whitelist и шаблоны пользователя - это разные параметры с разными эффектами.

...