Тессеракт делает обучение недостоверной истиной для обучения - PullRequest
0 голосов
/ 09 марта 2020

Я пытаюсь тренировать Тессеракт с изображением, и я нашел это https://github.com/tesseract-ocr/tesstrain Я следовал инструкциям по обучению изображений, но продолжаю получать эту ошибку

Tesseract Open Source OCR Engine v5.0.0-alpha-635-g90405 with Leptonica
Page 1
Warning: Invalid resolution 0 dpi. Using 70 instead.
find data/foo-ground-truth -name '*.lstmf' | python3 shuffle.py 0 > "data/foo/all-lstmf"
Error: missing ground truth for training
Makefile:147: recipe for target 'data/foo/list.train' failed
make: *** [data/foo/list.train] Error 1

Он продолжает показывать эту ошибку Error: missing ground truth for training

команда, которую я использовал make training

изображение и текст правды основаны на том же репо ocrd-testset.zip

что может быть решение, чтобы это исправить?

1 Ответ

0 голосов
/ 28 апреля 2020

Я следовал инструкциям в https://github.com/tesseract-ocr/tesstrain на Windows10.

Он продолжает показывать эту ошибку Ошибка: сначала отсутствует основополагающая истина для обучения. Это потому, что код не работает на Windows:


    (ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt'))
            @mkdir -p $(OUTPUT_DIR)
            find $(GROUND_TRUTH_DIR) -name '*.lstmf' | python3 shuffle.py $(RANDOM_SEED) > "$@"

, и я изменяю его на:

    $(ALL_LSTMF): $(patsubst %.gt.txt,%.lstmf,$(wildcard $(GROUND_TRUTH_DIR)/*.gt.txt))
        @mkdir -p $(OUTPUT_DIR)
        find $(GROUND_TRUTH_DIR) -name '*.lstmf' -exec echo {} \; | sort -R -o "$@"

Затем ошибка исчезла.

Измененный код взят из старой версии tesseract-ocr / tesstrain. Он должен работать как на linux, так и на windows. Возможно, вы можете попробовать.

...