Как искать набор PDF-файлов, только с сегментом изображения на странице - PullRequest
0 голосов
/ 07 апреля 2020

Основная идея заключается в следующем: у меня есть большая коллекция прошлых работ IGCSE, мне нужно найти, из какой статьи был конкретный вопрос, и все, что у меня есть, - это скриншот одного вопроса. Я хочу создать программу, которая может ввести изображение вопроса, затем отсканировать набор PDF-файлов, чтобы найти указанный вопрос, а затем вывести PDF-файл, содержащий указанный вопрос. У меня есть опыт программирования, но я немного застрял в том, как подойти к этой проблеме.

Решения, которые я пробовал: - Я пытался объединить PDF-файлы в один мега-PDF, так что я мог просто искать мега-PDF, не могу этого сделать, так как файл слишком велик.

Решения, я думаю может работать, но не уверен: - Использование ai с использованием pdfs в качестве набора данных и обучение его угадыванию, из какого pdf был задан вопрос. - Создание программы для чтения каждого PDF-файла, чтобы найти ключевые слова на изображении.

1 Ответ

0 голосов
/ 07 апреля 2020

Вы пробовали шаги в https://automatetheboringstuff.com/chapter13/? - поместите все файлы PDF в одну и ту же папку - для каждого файла pdf go на каждой странице - выполните extractText () - используйте регулярное выражение или что-то еще, чтобы проанализировать этот extractText для строки вопроса, затем выведите pdf / page, если найдено

...