Что такое новый титр объекта?И почему 8 классов по MS-COCO исключены из этой задачи? - PullRequest
0 голосов
/ 02 мая 2019

Я работаю с субтитрами, но мне трудно понять, что именно означает novel object captioning.Является ли это тем, что мы обучили модели на парах предложений-описаний, а затем применили к набору данных с объектами, которые никогда не появлялись в процессе обучения?Я прочитал это из Neural Baby Talk . DCC также заявляет, что во введении:

Существующим современным моделям титров не хватает возможности создавать композиционные структуры, которые объединяют новые объекты с известными концепциями без явных примеровпары изображений.Чтобы устранить это ограничение, мы предлагаем Deep Compositional Captioner (DCC), который может комбинировать визуальное обоснование лексических единиц для генерации описаний объектов, которых нет в корпусах титров (данных парных изображений-предложений), но которые присутствуют в наборах данных распознавания объектов (непарные данные изображения) и текстовые корпуса (непарные текстовые данные).

И они упомянули о 8 классах MS-COCO, исключенных для novel object captioning, но я не совсем понимаю значение этого шага.

Чтобы гарантировать, что исключенные объекты, по крайней мере, похожи на некоторые включенные, мы кластеризовали 80 объектов, аннотированных в задаче сегментации MSCOCO, используя векторы из вложения word2vec, описанные в разделе 3.4, и исключили один объект изкаждый кластер.Выбраны следующие слова: «бутылка», «автобус», «диван», «микроволновка», «пицца», «ракетка», «чемодан» и «зебра».

ДляВторой вопрос, который я добавляю сюда, но ожидаю более глубокого объяснения:

Чтобы оценить способность нашего подхода к выполнению субтитровых субтитров изображения, мы копируем существующий экспериментальный дизайн (Hendricks et al., 2016) используя MSCOCO.В соответствии с этим подходом все изображения с подписями, в которых упоминается один из восьми выбранных объектов (или их синонимы), исключаются из обучающего набора для надписей изображений.Это уменьшает размер обучающего набора с субтитрами с 82 783 до 70 194 изображений.Тем не менее, полный обучающий набор подписей маркируется как пакет слов на изображение и предоставляется в качестве обучающих данных тега изображения.Таким образом, выбранные объекты не видны в данных обучения надписи изображения, но не в данных обучения метки изображения.Исключенные объекты, отобранные Hendricks et.и др.(2016) из 80 основных категорий объектов в MSCOCO: «бутылка», «автобус», «диван», «микроволновка», «пицца», «ракетка», «чемодан» и «зебра».

Тогда как мне понимать out of domain image captioning?Это то же самое, что и novel image captioning?

Может ли кто-нибудь, имеющий опыт работы с субтитрами, помочь мне прояснить эти вопросы?Буду признателен за вашу помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...