Я работаю с командой, которая вручную вводит данные из нескольких PDF-файлов. Мы не смогли использовать OCR / et c. программное обеспечение для оцифровки информации на страницах, поэтому они вручную вводят это подмножество.
То, что я хотел бы сделать, - это создать программу (либо что-то простое в формах Google, либо что-то более сложное в блестящем приложении R), которое:
1) Проходит по папке изображений (где каждое изображение представляет собой 1 страницу из PDF-файла)
2) Отображает изображение для пользователя
3) Предоставляет несколько текстовых полей, в которые пользователь может вводить данные из изображение (например, имя, фамилия и т. д. c.)
4) Сохраняет текст из своих записей (в электронной таблице или таблице данных)
5) Перемещает файл изображения в другую папку, чтобы он не отображался снова
Я представляю, что это будет выглядеть как MTurk, когда задание будет транскрибировать данные из квитанции для людей, которые используют MTurk для расходов отчеты. Я пытаюсь сделать это простым (как со стороны ввода времени для моей стороны, чтобы построить программу, так и со стороны пользователя, так как люди, вводящие данные, не особенно разбираются в технологиях). Я просто хочу улучшить систему, которую они используют сейчас: открытие 300-страничного PDF на одном экране и Excel на другом, что может быть очень подвержено ошибкам.