Чтобы предвосхитить это, я знаю, что есть обсуждения по этому поводу в разных местах.
Половина того, что я прочитал, устарела, содержит ошибки или просто не связана с моей ситуацией.
Вот почему я привожу это сообществу, которое, я знаю, получит ответы.
Вопрос. У меня есть каталог (в идеале он-лайн), содержащий около 70 000 страниц в документах PDF (документы размером от 20 до 100 страниц, в сумме около 70 000 страниц).
Я ищу метод, сценарий или идею для самого простого способа поиска товаров в этих PDF-файлах. Все PDF-файлы имеют текстовый слой, созданный OCR в Acrobat.
Любые идеи , будь они продуманными или изобретательными, приветствуются.