Обнаружение объекта на изображении - PullRequest
0 голосов
/ 20 февраля 2019

В настоящее время я борюсь за реализацию алгоритма, чтобы найти объект на изображении.Предположим, у меня есть 100 тренировочных наборов, в которых есть кот, и каждый имеет правильную координату каждого кота.Моя первая идея - создать квадрат фиксированного размера и пройти по изображению.Для каждого набора пикселей в квадрате, мы можем использовать его в качестве отправной точки для алгоритма опорных векторов.

Проблема в том, что я не уверен, как это сделать, поскольку обычно каждая точка представляет каждый класс (имеет объект или не имеет объекта) и обычно имеет простые функции d, в то время как для этого случаяматрица dx3 как ее функции (каждая функция имеет значение RGB).

Простая помощь будет приветствоваться, спасибо!

1 Ответ

0 голосов
/ 20 февраля 2019

Если я хорошо понял ваш вопрос, применение машинного обучения для обработки изображений и компьютерного зрения немного отличается от других видов проблем.Основное отличие состоит в том, что вы должны как-то преодолеть проблему локальности и масштаба.все котята всегда появляются в определенной координате (x, y)?!конечно, нет!они могут быть где угодно на сцене.так как можно дать конкретную точку SVM для объекта?оно не будет обобщено вообще.По этой причине почти все основные операции в компьютерном зрении связаны с операцией свертки для извлечения функций независимо от их местоположения.Один пиксель несет ноль полезной информации, вам нужно проанализировать группы пикселей.Вы можете выбрать один из 2 подходов:

  1. классические методы:

использовать OpenCV для удаления шума, обнаружения краев, извлечения объектов с использованием таких методов, как SIFT, и передавать эти функции вмодель типа SVM, а не необработанные необработанные пиксели.извлечение признаков означает достижение от d признаков до k более значимого представления входных данных, где обычно (k

Глубокое обучение:

Сверточные нейронные сети (CNN) пролили свет на многие задачи компьютерного зрения, которые были далеко за пределами досягаемости до недавнего времени, и, что более важно, с такими структурами, как Keras и tenorflow Большинство проблем в компьютерном зрении - это просто программирование задач, если честно, и не требует больших знаний, как раньше.потому что (CNNs) извлекают элементы сами, и вам больше не нужно выполнять разработку функций , которая требует хорошо образованного и знающего человека для выполнения задачи.

поэтому выберите любой метод, который вы видитеподходит для обнаружения котенка = ^. ^ =.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...