Я добавляю новую функцию на мой сервер экспресс-узла, которая позволит мне загружать ежедневный журнал ELD драйверов и получать из этого изображения / pdf время, время начала, время окончания, обед и т. Д.
![Demo Log](https://i.imgur.com/x0hyEx5.jpg)
Я пытался преобразовать pdf в csv / json / html, но проблема в том, что это беспорядок без меток. Поэтому я полагаю, что пытаюсь каким-то образом прочитать и создать диаграмму, аналогичную диаграмме, уже внесенной в журнал поля.
т.е. Чтение будет сегментировано, скажем, через 15 минут или сколько угодно пикселей.
![Area of focus](https://i.imgur.com/sLlMGXm.jpg)
IF line exists in segment call proceed and log data ELSE check segments "SB" "D" "ON" then recursively call
![Semented area of focus](https://i.imgur.com/sdIo3EL.jpg)
В приведенном выше примере этот водитель приступил к дежурству в 6:45 утра. 1019 *
Файлы представлены в формате pdf, и у меня возникают проблемы с извлечением данных, и они могут быть полезны / помечены.
ОБНОВЛЕНИЕ: Если подумать об этом, это решение может быть довольно привлекательным. ресурс дорогой, особенно если это делается на стороне сервера, т.е. нарезать изображение / оставить его в буфере и прочитать его ... Может быть, было бы лучше просто попытаться разобраться в разборе мусора из pdf к чему-то другому ...
ОБНОВЛЕНИЕ 2: Яможет попробовать и использовать Tesseractocr в зависимости от того, как он выводит данные.
Использование на такой странице:
![Demo Page 2 ELD Log](https://i.imgur.com/ixpA2A7.jpg)