Классификатор SVM ожидает в качестве входных данных набор объектов (изображений), представленных кортежами, где каждый кортеж является набором числовых атрибутов. Некоторые особенности изображения (например, гистограмма уровня серого) обеспечивают представление изображения в виде вектора числовых значений, который подходит для обучения SVM. Однако алгоритмы извлечения признаков, такие как SIFT, будут выводить для каждого изображения набор векторов. Итак, вопрос:
Как мы можем преобразовать этот набор векторов объектов в уникальный вектор, представляющий изображение?
Чтобы решить эту проблему, вам придется использовать технику, которая называется мешок визуальных слов .