У меня есть несколько PDF-файлов (всего несколько сотен).У них нет правильной структуры и нет определенных полей.Все, что у них есть, это много текста.
Что я пытаюсь сделать:
Индексируйте PDF-файлы и ищите некоторые ключевые слова по индексу.Я заинтересован в том, чтобы найти, есть ли это ключевое слово в документе PDF, и если это так, мне нужна строка, где находится ключевое слово.Если бы я искал «Google» в документе PDF с таким термином, мне бы хотелось, чтобы «Google - отличная поисковая система» - это строка в PDF.
Как я решил это сделать:
Либо используйте SOLR, либо Whoosh, но SOLR выглядит хорошо для встроенной поддержки PDF.Я предпочитаю кодировать на Python, а Sunburst - это обертка на SOLR, которая мне нравится.Образец / пример проекта SOLR содержит файл схемы сравнения цен.Теперь я не уверен, что смогу использовать SOLR для решения своей проблемы.
Что вы, ребята, предлагаете?Любой вклад приветствуется.