Нужен инструмент для поиска текстовых документов с большой структурой для слов, фраз и связанных фраз - PullRequest
2 голосов
/ 05 июня 2010

Я должен идти в ногу со структурированными документами, содержащими такие вещи, как запросы предложений, отчеты правительственных программ, модели угроз и тому подобное. Они носят техно-юридический характер, как я бы их назвал: высоко структурированные, с нумерацией разделов и 3, 4 и 5 уровнями вложенности. Все на английском

Мне нужен более эффективный способ найти те абзацы самородков, которые важны для меня. Поэтому мне бы хотелось иметь локальный индекс / репозиторий документов, который позволил бы мне иметь несколько постоянных запросов и легко находить разделы в документах, в которых говорится о моих запросах. Вот пример:

  • Я хочу загрузить 10 больших файлов PDF, каждый из которых, скажем, по 100 страниц. Каждый PDF-файл содержит текст на английском языке, очень красиво отформатированный в параграфы и разделы.

  • Я хотел бы указать, что меня интересуют «платформы для ведения блогов», «слабые стороны в Ruby», «локализация и интернационализация»

  • В идеале тогда посмотрите на список, в котором был указан раздел текста, название документа и другая информация, которая, по-видимому, имела отношение и / или включала в себя слова и фразы, которые я указал.

Я уверен, что нечто подобное существует. Я бы назвал это чем-то вроде индексации документа, понимания документа или структурированного поиска.

Ответы [ 2 ]

0 голосов
/ 05 июня 2010

Opengrok - еще одно легкое решение поверх Lucene: http://opengrok.github.io/OpenGrok/

Кроме того, вы можете взглянуть на http://www.alfresco.com, это не легкое решение, но оно разработано именно для ваших целей.

0 голосов
/ 05 июня 2010

Взгляните на Lucene: http://lucene.apache.org/ и Solr http://lucene.apache.org/solr/, которые могут выполнить большую часть того, что вы просите. Хотя они не легки в полулегком весе!

Существует также эта превосходная книга: http://www.amazon.com/Building-Search-Applications-Lucene-Lingpipe/dp/0615204252/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...