В настоящее время я в поиске текстового индексатора для моей программы на Python. Я включил в список Solr, проект Lucene и Whoosh, который является родным для python. Я искал много документации по поддержке файлов doc, docx и pdf, и Solr продолжал указывать мне на пакет Tika, версия которого интегрирована с Solr.
В определенных условиях результаты не упоминаются, если какой-либо пакет имеет встроенную поддержку для трех форматов . Whoosh и Solr поддерживают их? Какой другой индексатор с открытым исходным кодом изначально читает эти форматы?