Если я хорошо понял ваш вопрос, применение машинного обучения для обработки изображений и компьютерного зрения немного отличается от других видов проблем.Основное отличие состоит в том, что вы должны как-то преодолеть проблему локальности и масштаба.все котята всегда появляются в определенной координате (x, y)?!конечно, нет!они могут быть где угодно на сцене.так как можно дать конкретную точку SVM для объекта?оно не будет обобщено вообще.По этой причине почти все основные операции в компьютерном зрении связаны с операцией свертки для извлечения функций независимо от их местоположения.Один пиксель несет ноль полезной информации, вам нужно проанализировать группы пикселей.Вы можете выбрать один из 2 подходов:
- классические методы:
использовать OpenCV для удаления шума, обнаружения краев, извлечения объектов с использованием таких методов, как SIFT, и передавать эти функции вмодель типа SVM, а не необработанные необработанные пиксели.извлечение признаков означает достижение от d признаков до k более значимого представления входных данных, где обычно (k
Глубокое обучение:
Сверточные нейронные сети (CNN) пролили свет на многие задачи компьютерного зрения, которые были далеко за пределами досягаемости до недавнего времени, и, что более важно, с такими структурами, как Keras и tenorflow Большинство проблем в компьютерном зрении - это просто программирование задач, если честно, и не требует больших знаний, как раньше.потому что (CNNs) извлекают элементы сами, и вам больше не нужно выполнять разработку функций , которая требует хорошо образованного и знающего человека для выполнения задачи.
поэтому выберите любой метод, который вы видитеподходит для обнаружения котенка = ^. ^ =.