Я добавляю новую функцию на мой сервер экспресс-узла, которая позволит мне загружать ежедневный журнал ELD драйверов и получать из этого изображения / pdf время, время начала, время окончания, обед и т. Д.
Я пытался преобразовать pdf в csv / json / html, но проблема в том, что это беспорядок без меток. Поэтому я полагаю, что пытаюсь каким-то образом прочитать и создать диаграмму, аналогичную диаграмме, уже внесенной в журнал поля.
т.е. Чтение будет сегментировано, скажем, через 15 минут или сколько угодно пикселей.
IF line exists in segment call proceed and log data ELSE check segments "SB" "D" "ON" then recursively call
В приведенном выше примере этот водитель приступил к дежурству в 6:45 утра. 1019 *
Файлы представлены в формате pdf, и у меня возникают проблемы с извлечением данных, и они могут быть полезны / помечены.
ОБНОВЛЕНИЕ: Если подумать об этом, это решение может быть довольно привлекательным. ресурс дорогой, особенно если это делается на стороне сервера, т.е. нарезать изображение / оставить его в буфере и прочитать его ... Может быть, было бы лучше просто попытаться разобраться в разборе мусора из pdf к чему-то другому ...
ОБНОВЛЕНИЕ 2: Яможет попробовать и использовать Tesseractocr в зависимости от того, как он выводит данные.
Использование на такой странице: