Основная идея заключается в следующем: у меня есть большая коллекция прошлых работ IGCSE, мне нужно найти, из какой статьи был конкретный вопрос, и все, что у меня есть, - это скриншот одного вопроса. Я хочу создать программу, которая может ввести изображение вопроса, затем отсканировать набор PDF-файлов, чтобы найти указанный вопрос, а затем вывести PDF-файл, содержащий указанный вопрос. У меня есть опыт программирования, но я немного застрял в том, как подойти к этой проблеме.
Решения, которые я пробовал: - Я пытался объединить PDF-файлы в один мега-PDF, так что я мог просто искать мега-PDF, не могу этого сделать, так как файл слишком велик.
Решения, я думаю может работать, но не уверен: - Использование ai с использованием pdfs в качестве набора данных и обучение его угадыванию, из какого pdf был задан вопрос. - Создание программы для чтения каждого PDF-файла, чтобы найти ключевые слова на изображении.