Я работаю над проектом колледжа. Мы работаем над набором данных с субтитрами. В настоящее время у нас есть набор данных, состоящий из изображений с субтитрами и без субтитров, продуктов питания и продуктов питания.
У меня есть 2 проблемы: 1) Количество изображений с субтитрами меньше, чем изображений без субтитров. 2) Некоторые заголовки являются просто названиями продуктов, в то время как другие имеют информацию о том, как еда, как выглядит еда, и т. Д. c.
С этими проблемами я не уверен, как эффективно использовать незарезанные данные.
Я могу запустить интегрированные CNN и RNN с LSTM для изображений с субтитрами. Но так как набор данных без субтитров больше, чем с субтитрами, как эффективно использовать данные.
Или я должен запустить алгоритм кластеризации CNN, чтобы найти похожие изображения, а затем использовать идентификатор фотографии этих изображений с подписями и передать их кластерный класс. Если это так, то рассмотрите ситуацию, в которой есть кластер из двух изображений с заголовками и одного изображения без заголовка, какой заголовок следует присвоить изображению без заголовка?
Я использовал Spacy и избавился от бесполезной информации в заголовках. Как избавиться от предлогов и другой бесполезной информации.
Количество продуктов без подписей: 57906 С подписями: 56968 Non Food: 85126
Какие-нибудь хорошие способы эффективно использовать набор данных?