Whoosh: индексирование документов MS, PDFs - PullRequest
3 голосов
/ 27 июля 2011

Я хочу сделать поиск документов с помощью Python.Solr не работал, поскольку хостинг на Java был ограничением.

Так что, чёрт возьми, кажется очевидным вариантом.Но, похоже, он не индексирует doc или pdf файлы (как может Solr).Как сделать так, чтобы они косвенно индексировали эти файлы?

1 Ответ

4 голосов
/ 24 августа 2011

Свисту просто нужен извлеченный текст из этих документов. В то время как библиотека Whoosh не будет выполнять это извлечение для вас, есть библиотеки Python, которые будут извлекать текст для вас, например, pdf miner, catdoc или antiword.

См. Эти два обсуждения для получения дополнительной информации:

...