( Если я делаю это неправильно, попросите у вас прощения и совета о том, где / как лучше написать мои вопросы. )
Для моего первого набега на Python мне удалось обработать ~ 20-страничный PDF-файл экзаменационной работы в формате JPG Теперь я буду sh выполнять обработку изображения.
Я бы хотел, чтобы Python
a. искали черные пиксели в самой левой вертикальной полосе приблизительно 250 пикселей, чтобы проверить начало вопроса и вернуть значение y-pixel-ht
b."отбросить" чисто белое вертикальное пространство 520px-слева и 300px- справа от
c. выводит несколько JPEG-файлов, каждый из которых содержит 1 вопрос, исключая пробелы.
По сути, я делаю вертикальные "обрезки" для общего JPG и сборка небелых частей на основе вопроса.
Благодарен за любые советы, пожалуйста. Заранее спасибо!
[ Для контекста я учитель физики, и я sh хочу использовать ML, чтобы в конечном итоге определить topi c каждого вопроса через OCR, а затем вывести текстовые документы содержащие изображения, классифицированные по темам из базы данных полных работ, охватывающих 20 лет. ]
schemati c