Я должен идти в ногу со структурированными документами, содержащими такие вещи, как запросы предложений, отчеты правительственных программ, модели угроз и тому подобное. Они носят техно-юридический характер, как я бы их назвал: высоко структурированные, с нумерацией разделов и 3, 4 и 5 уровнями вложенности. Все на английском
Мне нужен более эффективный способ найти те абзацы самородков, которые важны для меня. Поэтому мне бы хотелось иметь локальный индекс / репозиторий документов, который позволил бы мне иметь несколько постоянных запросов и легко находить разделы в документах, в которых говорится о моих запросах. Вот пример:
Я хочу загрузить 10 больших файлов PDF, каждый из которых, скажем, по 100 страниц. Каждый PDF-файл содержит текст на английском языке, очень красиво отформатированный в параграфы и разделы.
Я хотел бы указать, что меня интересуют «платформы для ведения блогов», «слабые стороны в Ruby», «локализация и интернационализация»
В идеале тогда посмотрите на список, в котором был указан раздел текста, название документа и другая информация, которая, по-видимому, имела отношение и / или включала в себя слова и фразы, которые я указал.
Я уверен, что нечто подобное существует. Я бы назвал это чем-то вроде индексации документа, понимания документа или структурированного поиска.