Я хотел бы иметь возможность создать код, который (1) автоматически читает PDF с распознаванием текста и (2) записывает то, что он читает в листе Excel. См. Изображение по ссылке, надеюсь, вы сможете получить доступ к ссылке на изображение, к сожалению, у меня недостаточно очков для ее отображения. Текст будет в таблице, как показано на рисунке, но вы можете видеть, что они иногда пишут вне ячеек. Лист не отсканирован идеально, как это иногда бывает с картинки.
https://cdn1.imggmi.com/uploads/2019/10/21/672a3c3a07ea79f60391b43ef2bf1b2b-full.png
, если это проще, текст можно заменить и использовать только цифры.
Я пишу на python, SQL, и я изучаю класс машинного обучения в октаве (https://www.coursera.org/learn/machine-learning).. Я имею опыт работы в области экологии, поэтому это не мое направление, но в будущем я бы хотелбыть специалистом по данным, так что это хорошая возможность для изучения.
Мне было интересно, какие инструменты (машинное обучение, Python, какая-то библиотека и т. д.) мне нужно было бы использовать для решения этой проблемы, и если кто-тоесть рекомендации по урокам (udemy, coursera, ...)
Я полагаю, это не простая задача, но это был бы отличный проект для изучения!
Merci beaucoup