Кто-нибудь знает смысл вывода методов image_to_data, image_to_osd из pytesseract? - PullRequest
0 голосов
/ 27 апреля 2020

Я пытаюсь извлечь данные из изображения, используя pytesseract . Этот модуль имеет методы image_to_data , image_to_osd . Эти два метода предоставляют много информации (TextLineOrder, WritingDirection, ScriptDetection, Orientation et c ...) в качестве выходных данных.

Ниже изображения выводится метод image_to_data . что означают значения этих столбцов (level, block_num, par_num, line_num, word_num)?

enter image description here

Вывод image_to_osd выглядит как ниже. Что означает каждый термин в этом слове?

Номер страницы: 0 Ориентация в градусах: 0 Поворот: 0 Доверительность ориентации: 16.47 Сценарий: латинский Скорее всего сценарий: 4.00

Я ссылался на документы, но сделал не получить никакой информации относительно этих параметров.

1 Ответ

0 голосов
/ 29 апреля 2020

Столбец Уровень :

  1. Элемент без номера_блока, абзаца_строки, номера_строки, слова_нума
  2. Элемент с блочно-нумерацией и без номера_пункта, номера_строки, слова_нума
  3. Элемент с block_num, абзацем_num и без номера строки, word_num
  4. Элемент с block_num, абзацем_num, line_num и без слова_num
  5. Элемент со всеми этими номерами

Столбец block_num : Номер блока обнаруженного текста или элемента
Столбец par_num : Номер абзаца обнаруженного текста или элемента
Столбец line_num : Номер строки обнаруженного текста или элемента
столбец word_num : номер слова обнаруженного текста или элемента

Но все 4 столбца взаимосвязаны. Если элемент начинается с новой строки, после чего номер слова снова начинает отсчитываться с 0, он не продолжается с предыдущей строки с номером последнего слова. То же самое относится и к line_num, par_num, block_num.

Проверьте приведенное ниже изображение для справки.
1-й столбец: block_num
2-й столбец: par_num
3-й столбец: line_num
4-й столбец: word_num
enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...