Текстовые индексаторы (для python) со встроенной поддержкой doc, docx и pdf файлов - PullRequest
1 голос
/ 16 июля 2011

В настоящее время я в поиске текстового индексатора для моей программы на Python. Я включил в список Solr, проект Lucene и Whoosh, который является родным для python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr продолжал указывать мне на пакет Tika, версия которого интегрирована с Solr.

В определенных условиях результаты не упоминаются, если какой-либо пакет имеет встроенную поддержку для трех форматов . Whoosh и Solr поддерживают их? Какой другой индексатор с открытым исходным кодом изначально читает эти форматы?

1 Ответ

3 голосов
/ 16 июля 2011

С помощью Solr 1.4 или более поздней версии вы можете загружать и индексировать файлы Word и PDF на лету;см .: http://wiki.apache.org/solr/ExtractingRequestHandler

Solr ExtractingRequestHandler использует Tika, чтобы позволить пользователям загружать двоичные файлы в Solr, а Solr извлекать из него текст и затем индексировать его.

...