Существует ли пакет npm или веб-интерфейс для чтения определенных частей изображения? - PullRequest
0 голосов
/ 16 октября 2019

Я добавляю новую функцию на мой сервер экспресс-узла, которая позволит мне загружать ежедневный журнал ELD драйверов и получать из этого изображения / pdf время, время начала, время окончания, обед и т. Д.

Demo Log

Я пытался преобразовать pdf в csv / json / html, но проблема в том, что это беспорядок без меток. Поэтому я полагаю, что пытаюсь каким-то образом прочитать и создать диаграмму, аналогичную диаграмме, уже внесенной в журнал поля.

т.е. Чтение будет сегментировано, скажем, через 15 минут или сколько угодно пикселей.

Area of focus

IF line exists in segment call proceed and log data ELSE check segments "SB" "D" "ON" then recursively call

Semented area of focus

В приведенном выше примере этот водитель приступил к дежурству в 6:45 утра. 1019 *

Файлы представлены в формате pdf, и у меня возникают проблемы с извлечением данных, и они могут быть полезны / помечены.

ОБНОВЛЕНИЕ: Если подумать об этом, это решение может быть довольно привлекательным. ресурс дорогой, особенно если это делается на стороне сервера, т.е. нарезать изображение / оставить его в буфере и прочитать его ... Может быть, было бы лучше просто попытаться разобраться в разборе мусора из pdf к чему-то другому ...

ОБНОВЛЕНИЕ 2: Яможет попробовать и использовать Tesseractocr в зависимости от того, как он выводит данные.

Использование на такой странице:

Demo Page 2 ELD Log

1 Ответ

1 голос
/ 16 октября 2019

Я думаю, что вы ищете термин OCR (оптическое распознавание символов). Это название технологии для преобразования текста на изображениях в реальный текст для работы. Как только вы это сделаете, расшифровка текста должна быть простой, если она в стандартном формате. Для Node существует множество библиотек OCR: https://www.npmjs.com/search?q=OCR Нет необходимости заново изобретать колесо и пытаться построить собственную систему OCR:)

...