Создание титров для набора данных с заголовками пищевых продуктов - PullRequest
1 голос
/ 12 марта 2020

Я работаю над проектом колледжа. Мы работаем над набором данных с субтитрами. В настоящее время у нас есть набор данных, состоящий из изображений с субтитрами и без субтитров, продуктов питания и продуктов питания.

У меня есть 2 проблемы: 1) Количество изображений с субтитрами меньше, чем изображений без субтитров. 2) Некоторые заголовки являются просто названиями продуктов, в то время как другие имеют информацию о том, как еда, как выглядит еда, и т. Д. c.

С этими проблемами я не уверен, как эффективно использовать незарезанные данные.

Я могу запустить интегрированные CNN и RNN с LSTM для изображений с субтитрами. Но так как набор данных без субтитров больше, чем с субтитрами, как эффективно использовать данные.

Или я должен запустить алгоритм кластеризации CNN, чтобы найти похожие изображения, а затем использовать идентификатор фотографии этих изображений с подписями и передать их кластерный класс. Если это так, то рассмотрите ситуацию, в которой есть кластер из двух изображений с заголовками и одного изображения без заголовка, какой заголовок следует присвоить изображению без заголовка?

Я использовал Spacy и избавился от бесполезной информации в заголовках. Как избавиться от предлогов и другой бесполезной информации.

Количество продуктов без подписей: 57906 С подписями: 56968 Non Food: 85126

Какие-нибудь хорошие способы эффективно использовать набор данных?

...